蘋果公司在自動駕駛領域取得了一項重大突破,其最新研究將自博弈(Self-play)技術引入自動駕駛系統,實現了前所未有的魯棒性和性能表現。這一成果不僅展示了蘋果在自動駕駛技術上的深厚積累,也為自動駕駛領域的發展提供了新的思路和方向。
據悉,蘋果的自博弈技術是通過讓智能體在與自我的副本或歷史版本進行博弈,從而實現算法的自我進化和優化。這一技術此前已在游戲、機器人和生物工程等領域取得了顯著成效,而蘋果此次將其應用于自動駕駛,更是取得了令人矚目的成果。
在研究中,蘋果設計了極簡的獎勵函數,無需依賴真實數據,而是生成了“前所未有規模”的模擬數據。通過讓若干智能體在地圖上大亂斗,實現算法的自我學習和進化。這種訓練方式不僅速度快,成本極低,而且最終實現了SOTA(State Of The Art,即當前最佳)的效果。
據蘋果透露,其利用公共云上的8張A100 GPU,每小時可模擬和學習44億次狀態轉移,相當于720萬公里的駕駛經驗。一輪完整的訓練僅需10天,就能學到16億公里的駕駛里程,這一數據相當于從太陽到土星的距離。而每百萬公里的費用還不到5美元,折合人民幣僅為1萬公里3毛6,這一成本和速度在自動駕駛領域堪稱驚人。
為了驗證這一成果的有效性和泛化性,蘋果將其在CARLA、nuPlan和Waymo等開放數據集上進行了零樣本獨立測試,均獲得了SOTA表現。這些基準涵蓋不同地圖、駕駛場景、交通密度和評分標準,充分證明了蘋果工作的泛化性和魯棒性。
值得一提的是,蘋果此次取得SOTA成果的背后,是其自主研發的GIGAFLOW模擬器。GIGAFLOW是一個批量模擬器,通過生成海量的GIGAFLOW World,實現了極簡版的世界模型。它無需編寫場景腳本,無需人類司機的駕駛數據,也不用設計復雜的獎勵函數,僅通過簡單的獎勵項和處罰項,就能讓智能體在自博弈中學會并道、無保護左轉和繞過事故現場等復雜駕駛行為。
盡管蘋果在自動駕駛領域取得了這一重大突破,但其造車項目卻曾一度擱淺。不過,從此次發布的成果來看,蘋果并未放棄在自動駕駛領域的探索和研發。相反,通過引入自博弈技術和自主研發GIGAFLOW模擬器,蘋果在自動駕駛技術上取得了顯著進展,為未來的造車項目奠定了堅實基礎。