開源大模型新SOTA,支持免費(fèi)商用,比LLaMA65B小但更強(qiáng),基于1萬
號(hào)稱“史上最強(qiáng)的開源大語言模型”出現(xiàn)了。
它叫 Falcon,參數(shù) 400 億,在 1 萬億高質(zhì)量 token 上進(jìn)行了訓(xùn)練。
最終性能超越 650 億的 LLaMA,以及 MPT、Redpajama 等現(xiàn)有所有開源模型。
一舉登頂 HuggingFace OpenLLM 全球榜單:
除了以上成績(jī),F(xiàn)alcon 還可以只用到 GPT-3 75% 的訓(xùn)練預(yù)算,性能就顯著超越 GPT-3,且推理階段的計(jì)算也只需 GPT-3 的 1/5。
據(jù)悉,這只半路殺出來的“獵鷹”來自阿聯(lián)酋阿布扎比技術(shù)創(chuàng)新研究所 。
有意思的是,作為一個(gè)開源模型,TII 在 Falcon 上推出了一個(gè)相當(dāng)特別的授權(quán)許可證要求:
可以商業(yè)使用,但如果用它產(chǎn)生的收益超過了 100 萬美元,就要被收取 10% 的授權(quán)費(fèi)。
一時(shí)之間,爭(zhēng)議滿滿。
史上最強(qiáng)開源 LLM
據(jù)介紹,F(xiàn)alcon 屬于自回歸解碼器模型。
它使用自定義工具構(gòu)建,包含一個(gè)獨(dú)特的數(shù)據(jù)管道,該管道從公開網(wǎng)絡(luò)中提取訓(xùn)練數(shù)據(jù)。
——Falcon 宣稱它“特別注重?cái)?shù)據(jù)質(zhì)量”,從公網(wǎng)上抓取內(nèi)容構(gòu)建好 Falcon 的初始預(yù)訓(xùn)練數(shù)據(jù)集后,再使用 CommonCrawl 轉(zhuǎn)儲(chǔ),進(jìn)行大量過濾并消除重復(fù)數(shù)據(jù),最終得到一個(gè)由近 5 萬億個(gè) token 組成的龐大預(yù)訓(xùn)練數(shù)據(jù)集。
為了擴(kuò)大 Falcon 的能力,該數(shù)據(jù)集隨后又加進(jìn)了很多精選語料,包括研究論文和社交媒體對(duì)話等內(nèi)容。
除了數(shù)據(jù)把關(guān),作者還對(duì) Falcon 的架構(gòu)進(jìn)行了優(yōu)化以提升性能,但細(xì)節(jié)沒有透露,相關(guān)論文將很快發(fā)布。
據(jù)悉,F(xiàn)alcon 一共耗費(fèi)兩個(gè)月,在 AWS 的 384 個(gè) GPU 上訓(xùn)練而成。
最終,F(xiàn)alcon 一共包含 4 個(gè)版本:
-
Falcon-40B:在 1 萬億 token 上進(jìn)行訓(xùn)練,并使用精選語料庫進(jìn)行了增強(qiáng);主要接受英語、德語、西班牙語、法語的訓(xùn)練,不會(huì)中文。
-
Falcon-40B-Instruct:在 Baize 上進(jìn)行了微調(diào),使用 FlashAttention 和多查詢對(duì)推理架構(gòu)進(jìn)行了優(yōu)化,是一個(gè)即用型聊天模型。
-
Falcon-7B:參數(shù) 70 億,在 1.5 萬億 token 上進(jìn)行了訓(xùn)練,作為一個(gè)原始的預(yù)訓(xùn)練模型,還需要用戶針對(duì)大多數(shù)用例進(jìn)一步微調(diào)。
-
Falcon-RW-7B:參數(shù) 70 億,在 3500 億 token 上進(jìn)行訓(xùn)練,該模型旨在用作“研究神器”,單獨(dú)研究各種在網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訓(xùn)練的影響。
Falcon 作為開源模型,已公開源代碼和模型權(quán)重,可供研究和商業(yè)使用。
這對(duì)業(yè)界來說是一個(gè)好消息,畢竟像 Meta 的羊駝家族都只能用于研究目的,且還得填表格申請(qǐng)才行,很是麻煩。
但 Falcon 還是引起了爭(zhēng)議。
這主要是因?yàn)樗恰俺^ 100 萬美元的任何商業(yè)應(yīng)用都要收 10% 的授權(quán)費(fèi)”的許可證要求。
據(jù)悉,該許可證部分基于 Apache License 2.0 協(xié)議,該協(xié)議對(duì)商業(yè)應(yīng)用友好,使用者修改代碼只需滿足相關(guān)需求即可將新作品作為開源或商業(yè)產(chǎn)品發(fā)布或銷售。
有不少網(wǎng)友認(rèn)為,既然 Falcon 宣稱開源,還要收費(fèi),就違背了 Apache License Version 2.0 的宗旨,不屬于真正的開源。
并有人稱這是一種“有損 Apache 軟件基金會(huì)來之不易的名譽(yù)”的做法。
有網(wǎng)友已經(jīng)跑到 TII 的官方賬號(hào)下“討要說法”:
你自己能解釋一下這是如何符合“開源”的定義嗎?
目前,官方并沒有回復(fù)。
你認(rèn)為這種做法究竟算不算開源呢?
參考鏈接:
免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),與本網(wǎng)無關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
最新內(nèi)容
- 中關(guān)村論壇探索中國(guó)大模型發(fā)展:發(fā)展初期鼓勵(lì)
- 馬斯克暗示SpaceX在8月份進(jìn)行星際飛船
- AI技術(shù)持續(xù)賦能,Jefferies維持網(wǎng)
- 天涯抖音直播帶貨謀自救,重啟后或提供會(huì)員制
- 小米相冊(cè)-編輯1.2.2.4.1發(fā)布:魔法
- 純電大降價(jià)!限時(shí)直降3萬,廣豐bZ4X售1
- 神舟十六號(hào)成功發(fā)射,中國(guó)第一位科學(xué)家航天員
- 精致于內(nèi),比日產(chǎn)軒逸更安逸,短途體驗(yàn)銳程P
- 小米太陽能充電方法專利公布,可用于終端設(shè)備
- 迪阿股份:暫未涉及培育鉆石業(yè)務(wù)




