上海人形機器人再迎重要進展。3月10日,智元機器人發布智元啟元大模型GO-1(Genie Operator-1),這是全國首個通用具身基座大模型,并成功部署到多款機器人本體。據悉,GO-1可以利用人類視頻學習,還能夠在極少數據甚至零樣本下,使機器人適應不同場景和任務,降低具身模型的使用門檻。
基于百萬級真機數據構建
“GO-1大模型基于具身領域的數字金字塔所構建,吸納了人類世界多種維度和類型的數據。”智元合伙人、具身業務部總裁姚卯青向記者展示了一個數字金字塔。
智元展示的數字金字塔。
底層是互聯網的大規模純文本與圖文數據,可以幫助機器人理解通用知識和場景,第二層是大規模人類操作及跨本體視頻,可以幫助機器人學習人類或者其他本體的動作操作模式。第三層是仿真數據,用于增強泛化性,讓機器人適應不同場景、物體等。金字塔的頂層,則是高質量的真機示教數據,用于訓練精準動作執行。
但是常規的VLA(視覺語言動作)架構,無法利用大規模人類及跨本體操作視頻數據,缺少了一個重要的數據來源,導致迭代的成本更高,進化的速度更慢。
簡單來說,以往的機器人都是通過網絡的圖文數據以及仿真數據來“模仿”人的行為,但沒有真人“手把手”教機器人遇到各種情況應該怎么做。
為解決具身智能的數據難題,智元在去年底推出了AgiBot World真機數據集,包含超過100萬條軌跡、涵蓋217個任務、涉及五大場景。以此作為基礎,智元在今天發布通用具身基座大模型GO-1。
智元推出首個具身通用大模型GO-1。
在AgiBot World誕生之前,谷歌也構建了一組不同機器人訓練的開源數據集Open X-Embodiment,但由于大部分數據缺乏統一標準化的采集流程,質量格式參差不齊。
相比之下,智元AgiBot World數據集從抓取、放置、推、拉等基礎操作,到攪拌、折疊、熨燙等精細長程、雙臂協同復雜交互,幾乎涵蓋了日常生活所需的絕大多數動作需求。其長程數據規模高出10倍,場景范圍覆蓋面擴大100倍,數據質量從實驗室級上升到工業級標準。
“這些機器人的動作數據集看似非常基礎,沒有什么炫酷的展示,但數據精度和涵蓋面算是全球頂級的。”上海智元機器人渠道銷售總監劉強表示。
平均成功率提高32%
有了高質量的數據保障,更可靠的技術架構也要跟上。
為了更好利用這些數據,智元提出了全新的ViLLA(視覺語言隱式動作)架構,與VLA架構相比,能通過預測Latent Action Tokens(隱式動作標記),彌合圖像—文本輸入與機器人執行動作之間的鴻溝,增強機器人的泛化能力。
通過ViLLA架構,智元機器人在五種不同復雜度任務上測試GO-1,相比已有的最優模型,GO-1成功率大幅領先,平均成功率提高了32%。其中,倒水、清理桌面、補充飲料三項任務表現尤為突出。這也意味著,GO-1在真實世界的靈巧操作和長時任務方面表現卓越,遠遠超過最先進的開源具身基座模型。
測試結果顯示,GO-1性能全球領先。
姚卯青表示,GO-1大模型可以幫機器人完成全面的“基礎教育”和“職業教育”,天然能適應新的場景,可以輕松面對多種多樣的環境和物體,快速學習新的操作。
他以“掛衣服”為例,模型可以根據看到的畫面,理解這句話對應的任務要求,然后根據之前訓練時看過的掛衣服數據,設想這個過程包括哪些操作步驟,最后執行這一連串的步驟,完成整個任務的操作。
如果分解來看,機器人掛衣服需要分四步走:
第一步:機器人通過“互聯網的大規模純文本和圖文數據”學習,理解了“掛衣服”這句話在此情此景下的含義和要求;
第二步:機器人學習過人類操作視頻和其他機器人的各種操作視頻,知道“掛衣服”這件事包含的所有步驟和環節;
第三步:由于仿真數據中包含不同衣服、不同衣柜、不同房間等場景,機器人在“仿真世界”中模擬出“掛衣服”所有操作,因此能理解每一個操作環節中對應的物體和環境。
第四步:通過預先學習的真人示教數據,機器人能精準完成“掛衣服”整個任務的操作。
機器人“大腦”日漸成熟
GO-1作為通用具身基座大模型,也就是說,這一大模型不再被機器人的具體型號、適用場景束縛,而是具備泛化能力,可以支持不同機器人快速適應新任務和學習新技能。
姚卯青介紹,GO-1大模型可以結合互聯網視頻和真實人類示范進行學習,增強模型對人類行為的理解。通過強大的泛化能力,GO-1能夠在極少數據甚至零樣本下泛化到新場景、新任務,降低了具身模型的使用門檻,使得后訓練成本非常低。
值得一提的是,GO-1大模型還搭配了智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習,越用越聰明。
通用大模型與具身智能的結合,是機器人邁向AGI(通用人工智能)的必經之路,而具身基座大模型也標志著機器人的“大腦”正日漸成熟。
事實上,十幾年前,機器人就可以“擦桌子”“拉小提琴”,這似乎不是什么新鮮事。但過去這些機器人,只是在完成預設程序,并不代表機器人具備自主完成任務的能力,或者說并不真正具備智能。如今,隨著具身智能的不斷演化,聰明的機器人已完成“從單一任務到多種任務”“從封閉環境到開放世界”“從預設程序到指令泛化”的三層進化。
“目前,機器人能夠在不同場景中執行多種任務,而不需要針對每個新任務重新訓練,也不再局限于預設程序,能夠理解自然語言指令,并具備一定推理能力。”姚卯青表示,機器人一旦“聽懂人話”,就能在商業、工業、家庭等多領域發揮更大的作用。
原標題:上海發布首個機器人通用“大腦”:能聽懂人話自主思考,掛衣服分這幾步完成