老黃”演講前,理想先放了王炸。
車東西3月18日(圣何塞時間3月17日晚)報道,就在剛剛理想汽車及英偉達自動駕駛部門帶來了一系列采用英偉達自動駕駛基座的量產產品及前沿研究進展。
在今天的GTC2025上,理想汽車智駕負責人賈鵬首次公開了理想汽車在封閉開發VLA技術后的最新進展。日前,有媒體報道稱其為了攻克VLA技術啟動了封閉開發,目標是在2025年下半年實現VLA技術的量產上車。
當下VLA(視覺-語言-行動)模型已成為今年智能駕駛領域的重要技術競爭方向。目前,理想汽車、吉利汽車和元戎啟行是該技術的主要推動者,三家公司均希望在VLA的實際應用方面取得領先地位,這也不難理解理想汽車決定封閉開發背后的意義了。
然而,VLA的落地仍面臨諸多挑戰。除了模型本身的研發需要時間,硬件性能的限制也是關鍵因素之一,目前Thor-U是當下較為平衡的解決方案。
此外,在上午的會議中,英偉達方面介紹了如何通過世界模型、神經重建引擎(NRE)、數據中心訓練加速及端側優化部署,提升自動駕駛系統的整體性能。同時,英偉達方面還重點介紹了車企使用Thor芯片針對自動駕駛的端側優化,秀了一波肌肉。
不難看出,兩場演講的核心共性在于,都強調了通過大規模數據訓練、模型優化以及計算加速,推動自動駕駛技術向更智能、更高效的方向發展,同時也預示著新一代自動駕駛系統形態的演進。
一、理想拿出VLA技術 交卷GTC2025
理想汽車在2025年NVIDIA GTC大會上正式公布了其全棧自研的MindVLA(視覺-語言-行動模型),該模型大模型融合了空間智能、語言智能和行為智能。
MindVLA不僅能夠理解復雜的3D空間環境,還能進行邏輯推理,并據此制定合理的駕駛決策,從而讓車輛真正具備感知、思考和自主行動的能力。它的核心技術優勢主要體現在六個方面。
首先,MindVLA采用3D高斯(3D Gaussian)作為核心中間表征,這種技術不僅具備豐富的語義表達能力,還能提供多粒度、多尺度的3D幾何表達,使得自動駕駛系統能夠高效感知和理解周圍環境。同時,系統通過自監督學習充分利用海量數據,進一步提升了各類下游任務的性能。
MindVLA概述
其次,MindVLA在模型架構上采用MoE架構,并引入稀疏注意力(Sparse Attention),實現了模型的稀疏化。這種設計在保證模型規模增長的同時,能夠維持較高的端側推理效率,使得自動駕駛在資源受限的車端環境中依然能夠實現高效推理。此外,理想團隊從零開始設計并訓練了專門適用于MindVLA的LLM基座模型,在訓練過程中引入了大量3D數據,使模型具備出色的3D空間理解和推理能力,并加入未來幀預測生成和稠密深度預測等任務,進一步增強空間智能。
MindVLA在模型架構上采用MoE架構
第三,MindVLA大幅提升了自動駕駛系統的邏輯推理能力。理想在訓練過程中讓LLM基座模型學習人類的思考方式,并在其中引入“快思考”和“慢思考”的有機結合,使其能夠根據不同駕駛情境自主切換決策模式。這一能力使得MindVLA不僅能在常規駕駛場景中做出快速反應,也能在復雜環境下進行深度推理,從而做出更安全、更合理的駕駛決策。
同時,為了充分利用NVIDIA Drive AGX的算力,MindVLA采用小詞表結合投機推理,并創新性地應用并行解碼技術,進一步提升了推理速度,使其在保持高精度的同時,仍能滿足實時性要求。
通過英偉達實現效率7倍提升
第四,MindVLA利用擴散模型(Diffusion Model)優化駕駛軌跡,并結合自車行為生成和他車軌跡預測的聯合建模,增強了自動駕駛系統在復雜交通環境中的博弈能力。通過這種方式,MindVLA不僅能夠基于當前交通流態勢預測合理的駕駛策略,還能夠根據外部條件(如風格指令)動態調整生成結果。
例如,在不同城市環境中,系統可以適應不同的駕駛風格,從而提供更加符合當地交通規則和駕駛習慣的體驗。值得一提的是,為了解決擴散模型計算效率較低的問題,MindVLA采用了基于常微分方程(Ordinary Differential Equation, ODE)的采樣器,使得系統能夠在僅2-3步內生成高質量的駕駛軌跡,大幅提升了推理效率。此外,為了增強自動駕駛在復雜和極端場景下的安全性,理想團隊構建了基于人類偏好的數據集,并創新性地引入RLHF(基于人類反饋的強化學習)進行模型微調,使MindVLA能夠更好地對齊人類駕駛行為,顯著提升了安全底線。