首個機器人世界模型開源平臺發(fā)布
近日,智元機器人推出行業(yè)首個面向真實世界機器人操控的統(tǒng)一世界模型平臺 Genie Envisioner,并宣布將開源全部代碼、預訓練模型及評測工具。
該平臺創(chuàng)新性地將未來幀預測、策略學習與仿真評估整合進以視頻生成為核心的閉環(huán)架構,首次實現(xiàn)機器人在同一世界模型中完成從感知到決策再到執(zhí)行的端到端推理流程。
傳統(tǒng)機器人學習系統(tǒng)普遍采用quot;數據收集—模型訓練—策略評估quot;的分階段開發(fā)模式,各環(huán)節(jié)相互獨立且依賴任務特定調優(yōu),導致開發(fā)復雜度高、迭代周期長。
GE平臺通過構建統(tǒng)一的視頻生成世界模型,破解了這一碎片化架構瓶頸?;诩s3000小時的真實機器人操控視頻數據,平臺建立了語言指令到視覺空間的直接映射,完整保留機器人與環(huán)境交互的時空動態(tài)信息。
核心突破在于視覺中心的世界建模范式。區(qū)別于主流VLA方法依賴語言抽象,GE直接在視覺空間中建模機器人與環(huán)境交互動態(tài),實現(xiàn)對物理規(guī)律的精準捕捉。這一范式帶來顯著性能躍升:
跨平臺泛化效率提升:在Agilex Cobot Magic等全新機器人平臺上,GE-Act動作模型僅需1小時遙操作數據即可高質量執(zhí)行任務,優(yōu)于需大規(guī)模多本體預訓練的π0和GR00T模型;
長時序任務執(zhí)行突破:在折疊紙盒等超10步連續(xù)任務中,GE-Act成功率高達76%,關鍵歸因于視覺空間顯式建模時空演化的能力及創(chuàng)新的稀疏記憶模塊設計。
技術架構由三大協(xié)同組件構成:
GE-Base多視角視頻基礎模型:采用自回歸視頻生成框架,通過頭部與雙臂腕部三路視角輸入保持空間一致性,結合稀疏記憶機制增強長時序推理。訓練分兩階段:3-30Hz多分辨率時序適應訓練提升運動魯棒性,5Hz固定采樣策略對齊微調;
GE-Act平行流匹配動作模型:160M參數輕量架構通過交叉注意力機制將視覺表征轉換為控制指令,采用quot;慢-快quot;異步推理,在RTX 4090 GPU實現(xiàn)200毫秒54步實時響應;
GE-Sim層次化動作條件仿真器:通過Pose2Image條件與運動向量編碼,將控制指令精確轉換為視覺預測,支持閉環(huán)策略評估與數據生成,每小時可完成數千次策略rollout。
為量化世界模型質量,團隊同步推出EWMBench評測套件,從場景一致性、軌跡精度等維度評估建模能力。在Kling、OpenSora等模型對比中,GE-Base在關鍵指標均領先且與人類判斷高度吻合。平臺現(xiàn)已開放項目主頁、論文及代碼倉庫,推動具身智能從quot;被動執(zhí)行quot;向quot;想象—驗證—行動quot;范式演進。
免責聲明:此文內容為本網站轉載企業(yè)宣傳資訊,僅代表作者個人觀點,與本網無關。僅供讀者參考,并請自行核實相關內容。




