8月9日有消息稱,小鵬汽車近期對組織架構(gòu)進行了調(diào)整,技術(shù)開發(fā)部被拆成了三個部門(AI端到端、AI應用、AI能效),新的組織架構(gòu)聚焦端到端模型。
小鵬汽車創(chuàng)始人何小鵬在微博曾公開談到,他越來越堅信端到端+大模型的組合,可以解決L2~L4的軟件架構(gòu),并真正實現(xiàn)智駕全球化,是真正可以到小區(qū)和所有內(nèi)部道路自動駕駛的最優(yōu)解決方案。而在此前舉行的小鵬汽車AI智駕技術(shù)發(fā)布會上,何小鵬也公開表示,小鵬汽車是全球唯二實現(xiàn)端到端大模型量產(chǎn)落地的汽車公司,而另一家是特斯拉。
特斯拉、小鵬的自動駕駛為什么要用端到端大模型?
端到端大模型是什么
端到端學習模型旨在直接從原始輸入(如圖像、雷達數(shù)據(jù))生成控制指令,繞過了傳統(tǒng)方法中的中間表示和處理步驟。
特斯拉在2021年引入了BEV+Transformer,將多攝像頭數(shù)據(jù)統(tǒng)一成俯視角度。2022年提出Occupancy Networks判斷空間占用,規(guī)劃層引入交互搜索,逐步增加約束條件(其他參與者博弈行為)做最優(yōu)路徑規(guī)劃。2023年8月26日,特斯拉演示FSD Beta V12,是其第一個端到端AI自動駕駛系統(tǒng)(Full AI End-to-End)。2024年1月,特斯拉FSD v12開始正式向用戶推送,將城市街道駕駛堆棧升級為端到端神經(jīng)網(wǎng)絡。
端到端神經(jīng)網(wǎng)絡
不同于市面上常見的自動駕駛方案,特斯拉FSD V12將99%的決策都交給神經(jīng)網(wǎng)絡給出,視覺輸入,控制輸出。而小鵬汽車也采用了類似的神經(jīng)網(wǎng)絡方案。
具體來說,小鵬汽車的自動駕駛端到端大模型主要由三個部分組成:
XNet:深度視覺感知神經(jīng)網(wǎng)絡,類似于人類的眼睛,能夠以裸眼3D效果重構(gòu)現(xiàn)實世界的3D圖像,感知范圍擴大了兩倍,并能識別50多種目標物。
XPlanner:同樣是神經(jīng)網(wǎng)絡模型,作用類似人類的小腦,通過海量數(shù)據(jù)時刻訓練,使得駕駛策略不斷向擬人進化,擁有“老司機般的腳法”。小鵬官方稱,“前后頓挫減少50%,違??ㄋ罍p少60%,安全接管減少40%。”
XBrain:大語言模型,類似于人類的大腦,為智能駕駛系統(tǒng)提供了理解和學習能力,能夠處理復雜場景,快速響應各種駕駛環(huán)境中的指令。在大語言模型上,小鵬汽車的XGPT大模型融合阿里通義大模型、智譜AI大模型,將深度應用在車用場景中。
小鵬端到端大模型
端到端大模型很費錢
這種端到端方案給智駕能力帶來了強力提升,其背后對算力成本也帶來了很大的消耗,特斯拉FSD V12的強大能力是經(jīng)過海量的視頻數(shù)據(jù)訓練和1萬個H100加持下完成的。小鵬則在AI訓練上投入了35億費用。根據(jù)小鵬汽車公布的數(shù)據(jù),基于折算10億+里程的視頻訓練、超646萬累計公里數(shù)的實車測試、超2.16億累計公里數(shù)的仿真測試,小鵬汽車端到端大模型能夠做到“2天迭代一次”。
此外,麥肯錫2023年自動駕駛?cè)蚋吖苷{(diào)查顯示,軟件是自動駕駛汽車最關(guān)鍵的技術(shù)要素,其中預測算法和感知軟件被認為是最關(guān)鍵的,達到L4及更高級別自動駕駛所需的累計投資比2021年的估計增加了30%-100%,軟件開發(fā)和驗證成本是主要支出。
端到端大模型很受關(guān)注
據(jù)數(shù)字開物了解,除實現(xiàn)量產(chǎn)落地的特斯拉和小鵬汽車外,海外的Waymo Driver,國內(nèi)包括理想、華為、蔚來汽車、元戎啟行、商湯等也都陸續(xù)提出了各自的端到端自動駕駛方案。
如此多企業(yè)選擇多端到端大模型,主要因為其在自動駕駛中優(yōu)勢主要有這幾方面:
數(shù)據(jù)利用效率提升:直接從原始數(shù)據(jù)學習,減少人為設計特征帶來的信息損失。
系統(tǒng)整體性能優(yōu)化:端到端訓練允許模型發(fā)現(xiàn)更優(yōu)的內(nèi)部表示,潛在地超越人工設計的模塊化系統(tǒng)。
對復雜場景的適應能力:大模型具有更強的表達能力,能夠處理更加復雜和多樣的駕駛場景。
開發(fā)效率與迭代速度提高:簡化了系統(tǒng)架構(gòu),減少了需要單獨優(yōu)化的模塊數(shù)量。
《2024汽車AI大模型TOP100分析報告》認為,端到端大模型發(fā)展路徑上,行業(yè)預計也會經(jīng)歷漸進的過程。
早期玩家致力于將算法從模塊化架構(gòu)平穩(wěn)過渡到端到端,遠期大語言模型和端到端基礎模型有望結(jié)合形成“系統(tǒng)一”和“系統(tǒng)二”共同賦能自動駕駛,最終強大的通用人工智能(AGI)或許可覆蓋所有駕駛能力。