這兩天我在美國加州體驗了 FSD v12.3.6 的版本,也打了一臺 Waymo 體驗。
總的來說,在舊金山城區(qū) Waymo 表現(xiàn)更好,而 FSD 在硅谷和高速表現(xiàn)極好,可以達到很高的分數(shù),很多路況處理都很絲滑。我非常感慨 FSD 在數(shù)月里有很大的進步,我們也會向 FSD 學習他們優(yōu)秀的功能點和用戶體驗部分,我相信 2025 年會是完全自動駕駛的 ChatGPT 時刻!
上周,何小鵬遠赴北美。除了現(xiàn)場觀看 NBA 決賽,參加投資趨勢會議,還順便親自體驗了特斯拉的 FSD v12 以及 Waymo(Alphabet 旗下無人駕駛出行服務(wù)商)的智駕表現(xiàn)。
何小鵬在美國體驗特斯拉 FSD-圖片來自微博@XP-何小鵬
馬斯克曾在 4 月末進行了一次極速訪華,本次訪華的目的是討論 FSD 在中國落地的可能性。
在其飛抵北京的同一日夜間,中國汽車工業(yè)協(xié)會、國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心發(fā)布《關(guān)于汽車數(shù)據(jù)處理 4 項安全要求檢測情況通報(第一批)》,通報指出:
特斯拉上海超級工廠生產(chǎn)的車型符合規(guī)定要求,首批 6 家合規(guī)車企中特斯拉是唯一一家符合要求的外資車企。
成為首批合規(guī)的車企,這也意味著特斯拉有望各地陸續(xù)解除禁行禁停限制。而特斯拉中國官方的 FSD 購買頁面描述,也從「稍后推出」變更為「即將推出」。
特斯拉 FSD 落地中國,正比任何時候都要接近成為現(xiàn)實。
Elon Musk-圖片來自:AFP
遠赴特斯拉大本營,親自體驗 FSD,何小鵬其一重要目的是:讓 XNGP 與特斯拉的 FSD 隔空較量,看看兩者孰強孰弱。
昨日,何小鵬在社交平臺上放出了 FSD 體驗的詳情視頻,主體的體驗環(huán)節(jié)由三段導航里程(加州大道-斯坦福游客中心-谷歌游客中心-Mission Bay)組成。
電車實驗室對視頻內(nèi)容要點做了較為完整的速記,以此回顧何小鵬對 FSD v12.3.6 的體驗觀點:
事實上,這已經(jīng)不是國內(nèi)新勢力首次與 FSD 的「隔空對標」了。
余承東不止一次在發(fā)布會上透露,華為內(nèi)部團隊曾遠赴美國舊金山等地,將華為的 ADS 與特斯拉的 FSD 進行了測試對比,而他認為華為的 ADS 智駕系統(tǒng)仍然擁有著全球最好的智駕能力。
如 2020 年特斯拉中國成為新能源市場「鯰魚」的那個前夜,靴子即將落地的 FSD,也正成為國內(nèi)車企爭相對標的對象。
何小鵬為特斯拉 FSD 鼓掌-畫面截自微博視頻號@XP-何小鵬
端到端,AI 的新秩序
頻頻被提及對標,特斯拉在 FSD 上做到了什么。
去年 8 月,加州 Palo Alto,馬斯克親自完成了一次 FSD v12 的實車測試。他駕駛一臺搭載 HW3.0 硬件的 Model S,從特斯拉工程總部出發(fā),全程實況直播。
時長 45 分鐘的測試中,這臺運行 FSD v12 的 Model S 僅出現(xiàn)一次被迫接管情況,馬斯克表示:FSD 會模仿人類的駕駛習慣,神經(jīng)網(wǎng)絡(luò)的可成長性也將大幅修窄智駕的犯錯空間。
馬斯克所說的神經(jīng)網(wǎng)絡(luò),指的是端到端神經(jīng)網(wǎng)絡(luò)(End-to-End)。
何為 End-to-End 端到端架構(gòu)?
在自動駕駛主流開發(fā)中,往往會將系統(tǒng)分為感知、規(guī)劃、決策三個模塊,先感知車輛環(huán)境,再規(guī)劃行車路徑,最終輸出執(zhí)行路徑完成 AD 系統(tǒng)的運行閉環(huán)。
分拆的模塊模仿了人類駕駛認知-分析-決策的步驟,模塊間獨立運行,提升模塊間透明度的同時還降低了開發(fā)的難度。
支撐模塊運行,是其背后大量的人工代碼,三個模塊的代碼量也意味著智駕人員的冗余龐雜。而更關(guān)鍵的問題在于,人工代碼始終是規(guī)則框架內(nèi)的產(chǎn)物,在代碼驅(qū)動下的自動駕駛無法處理長尾問題。
相比主流方案,特斯拉的端到端模型將感知、規(guī)劃、決策的模塊融合,形成新的神經(jīng)網(wǎng)絡(luò)。
馬斯克透露:引入端到端神經(jīng)網(wǎng)絡(luò)后,特斯拉替代了 FSD 中 30 多萬行的 C++ 代碼,v12 初始版本的人工代碼僅剩下 3000 行。通過神經(jīng)網(wǎng)絡(luò),特斯拉車輛在直接輸入傳感器數(shù)據(jù)后,即可生成制動、加速及轉(zhuǎn)向信號。
拋卻「死板」的人工代碼,特斯拉將大量包含人類駕駛的視頻數(shù)據(jù)壓縮,支持 FSD 的擬人化成長。
這也意味著:智能駕駛在完成 L2/3 的布局后,下一步的目標就將會是 L5 完全自動駕駛。
2 月中旬,特斯拉確認開始向非內(nèi)部員工車主推送 FSD Beta v12.1.2。盡管推送覆蓋面積僅為隨機 0.5%-2% 符合條件的車主,但基于端到端神經(jīng)網(wǎng)絡(luò)的智能駕駛,走出了大規(guī)模應(yīng)用的第一步。
E2E 神經(jīng)網(wǎng)絡(luò)的出現(xiàn),松開了長尾事件對智駕開發(fā)的束縛,創(chuàng)造了更有想象力的技術(shù)上限。但在享用端到端大模型先進性的同時,車企還要有足夠的體量支撐。
想要大模型準確、無誤地修正駕駛邏輯,車企需要為此投喂大量高質(zhì)量的駕駛數(shù)據(jù),數(shù)據(jù)庫首先就會受到挑戰(zhàn)。
這對于特斯拉來說,并不是什么難題,從生產(chǎn)第一輛 Model S 開始到今年 4 月,特斯拉在全球范圍總計生產(chǎn)超過 600 萬輛新車,而多年來 FSD 駕駛的累計里程也已經(jīng)超過了 10 億英里(約 16.09 億公里)。
7 個視角的模擬現(xiàn)實視頻輸出-內(nèi)容截自 X(原推特)
除了真實的海量道路片段數(shù)據(jù),馬斯克透露:大約一年多前,特斯拉就已經(jīng)能夠利用精確的物理原理制作真實模擬世界的視頻,而相比爆火的 Sora,特斯拉領(lǐng)先之處更是在于能夠提供極為精準的物理現(xiàn)實,幫助 FSD 更好地理解現(xiàn)實世界。
從 2023 年集中爆發(fā)以來,AI 技術(shù)在可感知的 2 年內(nèi),就完成了智能駕駛新秩序的建立。
新勢力眾生相:調(diào)整、探索隨行
AI 需要的海量高質(zhì)量數(shù)據(jù),車企的智駕競爭,也是交付體量的博弈。國內(nèi)有能力、心力跟進端到端大模型第一梯隊的新勢力車企并不多,主要還是集中在了頭部。
小鵬汽車算是率先在端到端大模型上拔得頭籌的新勢力車企。
今年 5 月,小鵬在 AI Day 上宣布國內(nèi)首個量產(chǎn)端到端大模型上車。整個大模型包括神經(jīng)網(wǎng)絡(luò) XNet、規(guī)控大模型XPlanner 以及大語言模型 XBrain,三者融合取代以往主流的「感知-規(guī)劃-控制」的獨立模塊邏輯。
XNet 神經(jīng)網(wǎng)絡(luò)負責模擬人類視覺,將自動駕駛的感知能力提升 2 倍。何小鵬將 XPlanner 形容為是人類的「小腦」,在海量高質(zhì)量數(shù)據(jù)訓練下,XPlanner 能夠幫助車輛的決策擬人化,減少頓挫、卡死、接管等等情況;而 AI 語言大模型 XBrain 提供大腦般的理解能力,幫助處理復雜、泛化的道路問題。
何小鵬表示:2024 年將投入 35 億元用于智能研發(fā),小鵬汽車的端到端大模型可以實現(xiàn) 2 天 1 迭代,18 個月就能夠?qū)⒅邱{能力提升 30 倍。今年第三季度,小鵬預計將會實現(xiàn)「全國都能開,每條路都能開」的智駕體驗。
延續(xù)何小鵬輸出 FSD 體驗報告的熱度,昨夜小鵬汽車自動駕駛負責人李力耘,再次在微博上發(fā)聲,他稱:
目前行業(yè)所說的「全國都能開」,一種是白名單式,支隊城市內(nèi)部分白名單道路開放,或只招募部分滿足一定門檻的白名單用戶;另一種是黑名單式,出了部分特定場景不能開,其余全國所有路都能開。
小鵬 XNGP 就是后者之一,今年 7 月小鵬汽車也將全量推送「黑名單式」的全國都能開。
國內(nèi)首款端到端首發(fā),加速了行業(yè)入局布置的速度,而在新技術(shù)的探索中,也伴隨著動蕩的調(diào)整。
小鵬正為端到端技術(shù)的到來,更積極地調(diào)整智駕團隊的架構(gòu),據(jù) 36 氪汽車報道消息稱:小鵬汽車在智駕部門下成立了 AI 部門,針對性推進端到端等技術(shù)。
圖片來自微博@XP-李力耘
幾乎是在同一時期,理想汽車開啟了新一輪的裁員計劃,整體優(yōu)化比例超過 18%。在其發(fā)布 2023 年財報詳情中,理想汽車的員工總數(shù)超過 3.16 萬人,在此優(yōu)化占比下,預計超過 5600 人受到影響波及。
受到最大影響的是 HR 招聘部、銷售運營部以及智能駕駛部門,其中,理想汽車的智能駕駛團隊規(guī)模已經(jīng)縮減至 1000 人以內(nèi)。
智駕團隊震蕩精簡,理想?yún)s沒有停止對端到端大模型開發(fā)的推進。在 2024 年中國汽車重慶論壇上,李想談起了自動駕駛,他稱:
從去年 9 月開始,理想內(nèi)部就在思考一個問題,并專門組建了一個專門用于自動駕駛的團隊。
有個最簡單的問題,人為什么開車不需要學習各種極端情況?如果不能解決這個問題,所有自動駕駛團隊每天干的活就是通過人工去調(diào)試各種極端情況,這離自動駕駛的實現(xiàn)就會越來越遙遠,人類開車與以往自動駕駛的開發(fā)方式有著根本的不同。
今天很多自動駕駛團隊都在做「端到端」,完整的訓練頻段放進來,從輸入直接到輸出,相比過往的獨立模塊效率要高了不少,但挑戰(zhàn)是難適應(yīng)人類規(guī)則。
挑戰(zhàn)有三:專做端到端數(shù)據(jù)訓練的人才,真正高質(zhì)量的數(shù)據(jù)以及足夠多的算力。
以此為理念,理想團隊對「雙系統(tǒng)」技術(shù)路線有了更多探索。
理想團隊從丹尼爾·卡尼曼的著作《思考,快與慢》中獲得靈感,人類快思考占據(jù)了日常大腦 95%的工作,而邏輯嚴密、緩慢的思考工作則約為 5%。
人在駕駛時,近乎 95%的動作是肌肉記憶,精力花費不多,只有碰到緊急情況下才需要觀察路面,思考給出下一步?jīng)Q策。
自動駕駛系統(tǒng)同樣如此,端到端為快思考系統(tǒng),足以處理正常的自動駕駛,而理想引入了視覺語言大模型 VLM 作為慢系統(tǒng),增強兜底及泛化能力,負責解決復雜的長尾問題。
AD Max3.0 目前擁有 2 顆 OrinX 芯片,而理想的核心思路是,一顆 OrinX 用于端到端模型的布置,另一顆則被用在了 VLM 運行上,兩顆 OrinX 芯片的算力用得剛剛好。
端到端模型能夠理解,那 VLM 又為何物?
VLM 模型是 Vision-Language Model 的縮寫,即視覺語言模型,這種模型既會看畫面,也會用語言描述看到的事物,進而完成思考,這與人類處理緊急情況的邏輯是高度相似的。
端到端、VLM 兩套系統(tǒng)上車,兩套大模型同時開跑,端到端快系統(tǒng)的推理速度為 10Hz,而慢系統(tǒng)則為 1-2Hz,快慢系統(tǒng)并行運行,遇到復雜路況情況下,VLM 會進行更慢更深層次的邏輯推理,并及時為快系統(tǒng)傳達信號,起到準確的介入干涉作用。
VLM 就好比是具備成長性端到端模型的實時老師,理想將此拆分為快慢系統(tǒng)的好處是:降低了自動駕駛技術(shù)的開發(fā)難度,加快了技術(shù)上車。
李想進一步表示,理想汽車將在今年的第三季度推送無圖 NOA,并向測試用戶推送基于 300 萬 Clips 訓練后的端到端+VLM 版本。
與此同時,李想還對更高級的自動駕駛做出了研判:有監(jiān)督的 L3 級自動駕駛最快今年年底,最晚明年年初實現(xiàn),3 年內(nèi)可以實現(xiàn)無監(jiān)督的 L4 自動駕駛。
步入調(diào)整的還有蔚來。
上周,晚點 Auto 曾發(fā)布獨家消息稱:蔚來的智駕研發(fā)部完成了架構(gòu)調(diào)整,此前蔚來智能駕駛研發(fā)部份為感知、規(guī)控以及集成等部分。調(diào)整后,感知和規(guī)控團隊將合并為大模型團隊,繼承團隊重組為交付團隊。
放棄過往「感知-決策-規(guī)控」的開發(fā)思路,調(diào)整架構(gòu)的蔚來也正在推進端到端大模型的開發(fā)探索。
搭載端到端架構(gòu)的 FSD v12,已經(jīng)開始在北美大規(guī)模推送。在特斯拉 FSD 落地中國的微妙前夜,新勢力們正摸著特斯拉的「石頭」,搶灘國內(nèi)端到端高階智駕。