螞蟻開源萬億參數(shù)強(qiáng)化學(xué)習(xí)高性能權(quán)重交換框架Awex
11月20日,螞蟻開源官微發(fā)文,螞蟻集團(tuán)宣布開源萬億參數(shù)強(qiáng)化學(xué)習(xí)高性能權(quán)重交換框架Awex。
據(jù)介紹,Awex 是為極致性能打造的訓(xùn)練推理引擎權(quán)重同步框架,解決強(qiáng)化學(xué)習(xí)流程中訓(xùn)練權(quán)重參數(shù)同步到推理模型的核心難題,可在秒級完成 TB 級大規(guī)模參數(shù)交換,顯著降低 RL 模型訓(xùn)練延遲。
Awex 是螞蟻 ASystem 強(qiáng)化學(xué)習(xí)系統(tǒng)的核心組件之一,而 ASystem 是百靈萬億模型訓(xùn)練的堅實(shí)基礎(chǔ)。螞蟻表示,將在未來陸續(xù)開源 ASystem 的其他核心 RL 組件,進(jìn)一步完善開源強(qiáng)化學(xué)習(xí)訓(xùn)練生態(tài)。
強(qiáng)化學(xué)習(xí)已經(jīng)成為大模型后訓(xùn)練的核心技術(shù)。從 ChatGPT 的RLHF,到 DeepSeek/Claude/Llama 的后訓(xùn)練體系,都依賴強(qiáng)化學(xué)習(xí)讓模型更符合人類偏好、具備更強(qiáng)的推理能力,進(jìn)一步擴(kuò)大模型智能邊界。
今年10月,螞蟻集團(tuán)開源了兩款業(yè)界領(lǐng)先的萬億參數(shù)旗艦?zāi)P?,包括非思考?Ling-1T和思考模型 Ring-1T。其中Ring-1T基于我們自研的高性能權(quán)重交換框架Awex,實(shí)現(xiàn)了在數(shù)千卡 GPU 集群上5~10秒內(nèi)完成萬億參數(shù)級別的權(quán)重同步。
免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個人觀點(diǎn),與本網(wǎng)無關(guān)。僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。




