2023年,特斯拉發(fā)布FSD v12版本,徹底引爆端到端自動駕駛方案。國內(nèi)汽車廠商開始新一輪智駕領(lǐng)域軍備競賽,大有得“端到端智駕方案”者,得天下的勢頭。
2024年3月,元戎啟行宣布端到端模型成功上車;4月,華為發(fā)布華為乾崑,并帶來全新升級的乾崑ADS 3.0;5月,小鵬汽車宣布端到端大模型已經(jīng)量產(chǎn)上車。此外,蔚來、商湯絕影等供應商都逐漸公開端到端智駕發(fā)展進度,涌入新的智駕賽道。
2024年7月,理想發(fā)布了基于端到端模型,VLM視覺語言模型以及世界模型的全新自動駕駛技術(shù)架構(gòu)。
但這僅僅停留在了PPT階段。
4個月后,理想汽車邀請億歐汽車前往廣州,試駕體驗理想端到端+VLM智能智駕。
據(jù)理想官方介紹,此次體驗的是理想汽車首創(chuàng)的“端到端+VLM”技術(shù)架構(gòu),行業(yè)首個“車位到車位”的智駕產(chǎn)品。與此同時,億歐汽車還體驗了理想全自動主動緊急轉(zhuǎn)向AES,以及OTA6.5升級的后向主動緊急制動R-AEB和后向誤加速抑制R-MAI。
理想智能駕駛經(jīng)過三次技術(shù)躍遷和產(chǎn)品升級,最終帶來了此次智駕方案。
理想汽車的“快”與“慢”
理想汽車的端到端+VLM智駕方案是受到諾貝爾獎得主丹尼爾·卡尼曼的快慢系統(tǒng)理論啟發(fā)。
所謂的“快系統(tǒng)”,是理想智駕系統(tǒng)在95%的場景下依賴直覺和本能進行駕駛,這能夠大幅度提升安全、舒適和效率,并且具備擬人化的駕駛方式。而“快系統(tǒng)”對應的就是端到端模型,理想汽車官方介紹,這是完全One Model結(jié)構(gòu)、真正意義上的端到端。輸入是傳感器,輸出是行駛軌跡,全部由一個模型來實現(xiàn),中間沒有任何規(guī)則。
其中的“慢系統(tǒng)”則指的是,本次智駕方案在5%場景下會進行有意識地分析思考,其能夠深刻理解物理世界的復雜交通環(huán)境和中文語義,輔助端到端,解決安全、導航、法規(guī)和舒適等方面的自動駕駛業(yè)內(nèi)難題。
而“慢系統(tǒng)”整體的算法架構(gòu)是由一個統(tǒng)一的Transformer模型組成,將Prompt文本進行Tokenizer編碼,然后將前視120度和30度相機的圖像以及導航地圖信息進行視覺信息編碼,通過圖文對齊模塊進行模態(tài)對齊,統(tǒng)一交給VLM模型進行自回歸推理。VLM輸出的信息包括對環(huán)境的理解、駕駛決策和駕駛軌跡,并傳專遞給系統(tǒng)1控制車輛。

長期以來,如何訓練端到端方案,使其能夠面對現(xiàn)實世界各種可能出現(xiàn)的情況,保證端到端系統(tǒng)的迭代效率,一直是業(yè)界人士討論的重點。面對這個問題,理想汽車借助世界模型構(gòu)建了一套智能駕駛的訓練和驗證系統(tǒng)。
理想汽車利用測試人員和內(nèi)測用戶幫忙收集的“錯題集”,設(shè)置為考題;同時,利用生成模型將考題進行泛化,比如改變天氣、光照、背景環(huán)境等等,形成“模擬題”。通過這種“錯題”加上“模擬題”的考試方式,來篩選合格的端到端模擬,并直到下一次的迭代方向。
老司機也會走錯路
在實際體驗下,理想汽車的“端到端”+“VLM”智能駕駛確實有著不錯的表現(xiàn)。
在億歐汽車長達50公里的理想智能駕駛體驗中,僅有一次人工接手。接手的場景還是因為大型卡車停在錯誤的位置,導致理想汽車誤判。中途,理想汽車有一次走錯了道路,但是很快自己意識到并按照交規(guī)掉頭,重新回到了導航指定的線路中。這兩次失誤,都是真人司機在真正駕駛場景下也會犯的錯誤,所以也在可理解的范疇。
理想汽車智駕方案整體駕駛過程平穩(wěn),極少有緊急加速和緊急剎停的情況。面對過收費站難題,理想汽車也能通過語言模型識別收費站ETC,選擇好通行車道,降速緩慢通過ETC。面對較為復雜的環(huán)島,理想汽車能夠果斷精準地進出,不會給前后車輛造成困擾。
此外,更新智駕版本后的理想汽車還能夠?qū)⑶胺礁兄漠嬅嫱渡涞巾撁鎯?nèi),配合文案講解模型的思考過程和結(jié)果。

但目前的理想汽車智駕系統(tǒng)仍有進步的空間。比如在高架上,智能駕駛的車子習慣性地走右邊慢車道,在超車的時候也會選擇換右車道超車。但是相信隨著更多的數(shù)據(jù)學習,智駕系統(tǒng)經(jīng)過更新迭代能夠很好地解決這個問題。