2023年,特斯拉發(fā)布FSD v12版本,徹底引爆端到端自動(dòng)駕駛方案。國內(nèi)汽車廠商開始新一輪智駕領(lǐng)域軍備競(jìng)賽,大有得“端到端智駕方案”者,得天下的勢(shì)頭。
2024年3月,元戎啟行宣布端到端模型成功上車;4月,華為發(fā)布華為乾崑,并帶來全新升級(jí)的乾崑ADS 3.0;5月,小鵬汽車宣布端到端大模型已經(jīng)量產(chǎn)上車。此外,蔚來、商湯絕影等供應(yīng)商都逐漸公開端到端智駕發(fā)展進(jìn)度,涌入新的智駕賽道。
2024年7月,理想發(fā)布了基于端到端模型,VLM視覺語言模型以及世界模型的全新自動(dòng)駕駛技術(shù)架構(gòu)。
但這僅僅停留在了PPT階段。
4個(gè)月后,理想汽車邀請(qǐng)億歐汽車前往廣州,試駕體驗(yàn)理想端到端+VLM智能智駕。
據(jù)理想官方介紹,此次體驗(yàn)的是理想汽車首創(chuàng)的“端到端+VLM”技術(shù)架構(gòu),行業(yè)首個(gè)“車位到車位”的智駕產(chǎn)品。與此同時(shí),億歐汽車還體驗(yàn)了理想全自動(dòng)主動(dòng)緊急轉(zhuǎn)向AES,以及OTA6.5升級(jí)的后向主動(dòng)緊急制動(dòng)R-AEB和后向誤加速抑制R-MAI。
理想智能駕駛經(jīng)過三次技術(shù)躍遷和產(chǎn)品升級(jí),最終帶來了此次智駕方案。
理想汽車的“快”與“慢”
理想汽車的端到端+VLM智駕方案是受到諾貝爾獎(jiǎng)得主丹尼爾·卡尼曼的快慢系統(tǒng)理論啟發(fā)。
所謂的“快系統(tǒng)”,是理想智駕系統(tǒng)在95%的場(chǎng)景下依賴直覺和本能進(jìn)行駕駛,這能夠大幅度提升安全、舒適和效率,并且具備擬人化的駕駛方式。而“快系統(tǒng)”對(duì)應(yīng)的就是端到端模型,理想汽車官方介紹,這是完全One Model結(jié)構(gòu)、真正意義上的端到端。輸入是傳感器,輸出是行駛軌跡,全部由一個(gè)模型來實(shí)現(xiàn),中間沒有任何規(guī)則。
其中的“慢系統(tǒng)”則指的是,本次智駕方案在5%場(chǎng)景下會(huì)進(jìn)行有意識(shí)地分析思考,其能夠深刻理解物理世界的復(fù)雜交通環(huán)境和中文語義,輔助端到端,解決安全、導(dǎo)航、法規(guī)和舒適等方面的自動(dòng)駕駛業(yè)內(nèi)難題。
而“慢系統(tǒng)”整體的算法架構(gòu)是由一個(gè)統(tǒng)一的Transformer模型組成,將Prompt文本進(jìn)行Tokenizer編碼,然后將前視120度和30度相機(jī)的圖像以及導(dǎo)航地圖信息進(jìn)行視覺信息編碼,通過圖文對(duì)齊模塊進(jìn)行模態(tài)對(duì)齊,統(tǒng)一交給VLM模型進(jìn)行自回歸推理。VLM輸出的信息包括對(duì)環(huán)境的理解、駕駛決策和駕駛軌跡,并傳專遞給系統(tǒng)1控制車輛。

長期以來,如何訓(xùn)練端到端方案,使其能夠面對(duì)現(xiàn)實(shí)世界各種可能出現(xiàn)的情況,保證端到端系統(tǒng)的迭代效率,一直是業(yè)界人士討論的重點(diǎn)。面對(duì)這個(gè)問題,理想汽車借助世界模型構(gòu)建了一套智能駕駛的訓(xùn)練和驗(yàn)證系統(tǒng)。
理想汽車?yán)脺y(cè)試人員和內(nèi)測(cè)用戶幫忙收集的“錯(cuò)題集”,設(shè)置為考題;同時(shí),利用生成模型將考題進(jìn)行泛化,比如改變天氣、光照、背景環(huán)境等等,形成“模擬題”。通過這種“錯(cuò)題”加上“模擬題”的考試方式,來篩選合格的端到端模擬,并直到下一次的迭代方向。
老司機(jī)也會(huì)走錯(cuò)路
在實(shí)際體驗(yàn)下,理想汽車的“端到端”+“VLM”智能駕駛確實(shí)有著不錯(cuò)的表現(xiàn)。
在億歐汽車長達(dá)50公里的理想智能駕駛體驗(yàn)中,僅有一次人工接手。接手的場(chǎng)景還是因?yàn)榇笮涂ㄜ囃T阱e(cuò)誤的位置,導(dǎo)致理想汽車誤判。中途,理想汽車有一次走錯(cuò)了道路,但是很快自己意識(shí)到并按照交規(guī)掉頭,重新回到了導(dǎo)航指定的線路中。這兩次失誤,都是真人司機(jī)在真正駕駛場(chǎng)景下也會(huì)犯的錯(cuò)誤,所以也在可理解的范疇。
理想汽車智駕方案整體駕駛過程平穩(wěn),極少有緊急加速和緊急剎停的情況。面對(duì)過收費(fèi)站難題,理想汽車也能通過語言模型識(shí)別收費(fèi)站ETC,選擇好通行車道,降速緩慢通過ETC。面對(duì)較為復(fù)雜的環(huán)島,理想汽車能夠果斷精準(zhǔn)地進(jìn)出,不會(huì)給前后車輛造成困擾。
此外,更新智駕版本后的理想汽車還能夠?qū)⑶胺礁兄漠嬅嫱渡涞巾撁鎯?nèi),配合文案講解模型的思考過程和結(jié)果。

但目前的理想汽車智駕系統(tǒng)仍有進(jìn)步的空間。比如在高架上,智能駕駛的車子習(xí)慣性地走右邊慢車道,在超車的時(shí)候也會(huì)選擇換右車道超車。但是相信隨著更多的數(shù)據(jù)學(xué)習(xí),智駕系統(tǒng)經(jīng)過更新迭代能夠很好地解決這個(gè)問題。