6月15日,第十六屆中國汽車藍皮書論壇進行到第二天,在當天下午的智能駕駛專場,馭勢科技聯合創始人、董事長兼CEO吳甘沙帶來《面對或然的大模型ChatGPT時刻,自動駕駛創業公司如何應對》的主題演講。
他提出,“也許大模型是真正的自動駕駛的終局。”馬斯克說特斯拉的12.4版本性能提升5倍到10倍。這是否意味著它在模型的規模上有了一次巨大的提升?數十億到百億參數的多模態模型是否會出現涌現能力?
吳甘沙表示,“如果特斯拉失敗了,就是百億美金的投資之后還是沒有收斂,它的FSD增長曲線到了一定程度開始走平的話,它可能面臨著股市的驚天壓力。但是如果它成功了,也許這個賽道上的大小公司會被甩開。”
他在演講中談到了作為自動駕駛創業公司,馭勢科技的應對策略。
以下是吳甘沙的演講實錄,有刪減。

非常感謝汽車商業評論的邀請,很高興再次來到藍皮書論壇。各位同行,各位媒體朋友,大家好。因為時間關系,我只講兩個問題:第一,大家說今天我們面臨著大模型自動駕駛的ChatGPT時刻,它會不會發生;第二,作為自動駕駛的創業性公司,該如何應對。

ChatGPT時刻來了?
我們是不是真的面臨這樣的ChatGPT時刻?

這是特斯拉車主自發上傳數據的一個統計曲線。這是一個城市FSD的數據,在11.4到12.3之間出現了一個快速提升的現象。當然這個數據隨時在變化,但是基本上200多公里才會有一次“危險接管”。
我們看看國內,國內比較領先的小鵬。何小鵬說得比較實誠,高速上能夠達到1000公里1次接管,城市里還不到10公里1次接管。
大家這么初看,感覺特斯拉確實是在快速地拉開差距,但是我們再仔細看一下,看它的12.3.6,其實它的一般接管是31公里1次接管,高速是134公里1次接管。
一方面我們能夠看到它在快速地提升,但是如果我們區分危險接管和普通接管,會發現它普通接管的數據也不是遙遙領先。更何況,中國的路況要比美國復雜很多。
大家可以看看2015年的數據,每10萬輛車每年導致多少條人命,中國其實是遠遠超過美國和德國,也就是說中國的交通路況復雜很多。你對比31公里一次接管和不到10公里一次接管,也并沒有說特斯拉就是遙遙領先于小鵬。
所以,到目前為止,我們認為可能沒有辦法得出很準確的結論,除非我們今天看到新聞說特斯拉10臺FSD的車要在上海跑了,那這樣才能夠避免關公戰秦瓊的這樣一種比較。
那為什么我們還是要問這個問題,就是它是不是面臨著一個突破的時刻呢?因為我們最近看到馬斯克的一些面向投資人的說法:
第一,在過去這兩年當中他們的算力提升了10倍以上,提升了一個數量級,從前面5760張A100的Dojo,到今年年底可能會增加到8.5萬張的H100。這可是上百億美元的投資。
第二,訓練數據提升了10倍以上。因為Dojo剛剛開始的時候是100萬個10秒的視頻,但是最近一次接受采訪已經達到了幾千萬個視頻。
第三,車端算力差不多提升了5倍,從144TOPS的HW3.0(這個HW3.0只能夠跑1億上下的參數)到現在720TOPS 的HW4.0,而且針對Transformer做了特殊的優化。
所以,我們不由得猜想它是不是在模型的規模上有了一次巨大的提升?從今天的1億參數到幾十億的參數,它會不會出現涌現能力(舉一反三,觸類旁通等)?這是我們現在特別期待要看到的。
馬斯克在5月份預告了一下,說他們的12.4版本能夠提升5倍到10倍。所以,結合這邊的這些數據,就是訓練算力提升10倍、數據提升10倍,模型提升10倍,性能變成了10倍。所以,這個真正發生是非常有意思的。
而且,我們對比一下大模型的訓練,比如前面是10萬億個token,幾萬張卡訓練100天,做預訓練,再做有專家監督下的精調(Supervised Fine Tuning),最后是人類反饋的強化學習(RLHF,Reinforcement Learning from Human Feedback)。
這樣的例子跟我們人學開車特別類似。我們人學開車前面也有一個預訓練的過程,前面18年沒有學開車,只是學常識,形成了我的世界觀,我的認知模型。這是18年的社會閱歷,就像一個預訓練的過程。然后到了18歲,我就去駕校找了一個教練來教我怎么開車,這又像專家監督下的Fine Tuning。然后我拿了駕照自己買了車,我從新手上路邊開邊練,磕磕碰碰,熟能生巧,慢慢地就開得越來越好了。這又像不斷反饋下一個強化學習的過程。
所以,也許大模型是真正的自動駕駛的終局。我們今天說的那么多的corner case可能并不是最終靠人力來去窮盡,而是靠這樣的一種方法來去窮盡。

2017年我跟旭東(Momenta CEO曹旭東)參加CVPR會議的時候,我們也在談端到端。當時我就有一個想法,大模型就像我們的系統2,針對一些最難、少見交通狀況,需要高算力、高功耗去思考,最后去解決。但是端到端像系統1,它可以類比我們人類駕駛的本能模式。我們今天絕大多數時間開車都是腦子里想著其他的事,聽著音樂,以一種極低功耗、極低算力的方式開車,這是端到端的模式。不排除這個可能是我們未來自動駕駛實現的終局的一種模式。
當然如果特斯拉失敗了,就是百億美金的投資之后還是沒有收斂,它的FSD增長曲線到了一定程度開始走平的話,它可能面臨著股市的驚天壓力,因為畢竟一年賣個200萬臺車可能不值那么高的估值。但是如果它成功了呢,也許這個賽道上的大小公司會被甩開。這個可能是我們下面要拭目以待的。

差異化競爭
我們是以L4商用車為主的一家公司,但是從2016年成立以來,我們一直有一支團隊在做乘用車。當然這個團隊的規模很小,剛才旭東說1300個人,我們不到十分之一。這么小的團隊,我們該怎么做乘用車,今天也跟大家做一個分享。
像FSD這樣的投資烈度毫無疑問我們沒有辦法去做,所以我們做差異化競爭,去對標EAP,做出來極致的智價比。比如我們在10萬元的車上面能不能做到EAP。

什么是EAP?大家可以看到特斯拉的智駕就是三個級別,最上面的就是基礎版AP,中間那個是EAP,下面是FSD。這個EAP就是我們經常說的高速NOA,行泊一體,它的報價要到32000元,而FSD是64000元。
今天的FSD或者城市NOA是在從90分到99分的過程當中,這里面需要巨大的投資。但是另一方面,EAP這32000元錢的東西,高速的NOA、行泊一體再加上通勤記憶行車,可能在99分到99.99分的過程當中。那么能不能把這套系統做到3000元錢而不是32000元錢?這可能又是一個值得去探索的地方。
就是一方面把體驗從99分做到99.99分,另一方面要把成本極大地降低。我們在這里面也有一定的探索。

這是我們乘用車的一條產品線,最底端就是一體機。一體機這條產品線基本上都是基于地平線的,底端就是J2的,200萬像素、800萬像素。我剛才說的就是中間的產品,行泊一體。上面其實是L4跟城市NOA一起想要去構想的預控制器的形態。
中間有一個產品,成本是極低極低的,它是J2再加上E3,能夠實現高速的NOA再加上基于超聲波雷達的APA,就是一個基本的行泊一體,它是極致的成本。
再往上這是J3再加上E3,我們把它叫做“極致的智價比”,它在這個基礎上加上一個融合的APA,另外再加上一個記憶行車。然后在這個基礎上又有一個變種,中間再加上TDA4,這里面就是高速領航加上記憶行車之外,再加上記憶泊車。然后再到上面,就再加上城市NOA。這是這么一個產品線。
但是我們采用極高模塊復用的設計方法,這樣使得我們跟主機廠和Tier1合作的時候可以有非常靈活的身段。可以提供算法或者軟件模塊,可以提供整體的軟件包和服務,也可以把硬件的參考設計給我們的合作伙伴,或者提供軟硬件一體的方案,所以,它可以非常靈活。我們基礎版的行泊一體和極致智價比的行泊一體,這兩個產品都是在小幾千塊錢,但是能夠提供對標EAP的一種體驗。
在這個過程中我也介紹一下我們的方法論。其實我們最早對這個團隊的要求就是模塊化,軟件高度模塊化可復用,硬件可以支持各類的計算平臺,從J3到TDA到恩智浦到英飛凌,包括我們國產的芯馳等等。總結一下,就是硬件能夠適配各類的品牌,軟件高度模塊化。
但是我們前七年基本上是兩條路線,就是行車和泊車都是分開去做的。然后就做了這么一個行泊一體的軟件架構,這是整個重新開始架構的產品。這個產品我們也是基于SOA,進一步提升開發效率和功能的可擴展性。
同時,我們還做了很多的工作。這里我介紹一點。
因為像這樣極致智價比的平臺,一個J3再加上一個E3,它除了感知能夠用神經網絡,其他的很難用數據驅動的方法,很難用神經網絡。但是如果今天基于人的規則的這種方法,其實有很多數據沒什么用,因為人來不及處理,所以就會利用效率低。但是如果你運用數據驅動的方法,用神經網絡,它的安全等級又比較低,它只能達到QM,沒有辦法達到更高的安全等級。
Joseph Sifakis這位老兄也是圖靈獎獲得者,他其實問了一個問題,為什么自動駕駛的車那么難?討論討論著最終還是走向一個方向,就是基于模型、基于規則,再加上數據驅動神經網絡的方法進行糅合,這樣的方法能不能在極其低端的芯片上跑起來。

我們拿目標選擇作為一個案例,大家可以看到我們在一個MCU上面能夠跑出來這么一套系統,一方面它是一個基于數據驅動的LSTM(Long Short Term Memory,長短期記憶)的網絡,另一方面是基于規則,再加上一個synthersizer,這么一套系統。神經網絡能跑在一個MCU的core上面,然后規則和synthesizer跑在另外一個core上面。當然神經網絡的是QM,另外一個是rule-based,是ASIL D。
這些融合起來我們能夠綜合達到ASIL D功能安全等級。同時,它對代碼空間、數據空間的占用,其實是在幾百kb的級別,能夠達到26262的認證。
我們能不能通過一套融合的系統,一方面滿足數據驅動,滿足更高的性能,另外一方面又是極致的成本,并滿足SOD的要求。
另外的案例,我們通過生成性對抗網絡,比如在數據選擇、在規控這些今天我們的數據不是特別多的情況下,能夠不斷地通過生成性的對抗網絡來生成更高質量的數據。
這里舉一個案例,就是很小的神經網絡的算法和基于規則的方式進行融合,那它要去處理的就是一輛車,它在cut-in。大家可以看到基于小神經網絡的能夠比基于規則提前2秒多就能發現cut-in的意圖。總的來說能夠大幅減少假陰性,另外把recall可以提升50%。
這套系統我們也用在了很多其他的功能上,比如,這是一個純視覺的AEB,我們也是拿到了五星+的標準,能夠實現85公里時速的一個剎停。

跟隨第一梯隊
我們還是要緊跟第一梯隊,在算法上緊跟前沿,并且還是能夠保證可模塊化交付。
過去這幾年,特斯拉在BEV Transformer,包括像這種無圖的Lanes Network,包括從單幀到一個視頻流,包括到Occupancy Network(占用網絡)等等方面有了很多創新,下一步做各個不同模塊的神經網絡化,最后實現整體的端到端大一統的網絡。
在這些算法方面我們也一直在跟隨,像BEV+Transformer+ Occupancy Network這樣的網絡,我們做的一套系統,最近在一個國際會議Robo Drive Challenge上面拿到了第一名。我們有很多這樣的算法,它從這個性能上面看還是非常不錯的,這些算法我們都可以把它們作為模塊來進行交付。

為大客戶服務
創業公司沒有辦法投入那么多的GPU,也沒有那么多的數據,但是誰有?我們的大客戶可能有,尤其是一些大的OEM,有數據,也有算力。我們也可以為他們提供像數據閉環、運維平臺、大算力訓練平臺的軟件服務。
因為我們做L4,大家知道L4其實需要特別好的閉環,因為它需要快速地迭代。所以,我們在車端有一套黑匣子的數據儲存系統(DSSAD),在云端也有一套不錯的自動駕駛的訓練平臺。
特別是從去年開始,我們也在把一些大模型的技術應用進去,場景理解、預標注、數據挖掘等大模型。這是一個典型的做智駕公司或者是OEM該有的平臺。那么我們可以做這種云端的container的交付,也可以做實際的一體機的交付。因為可能有些公司并不希望用云,而且它的數據量可能像這么一個24-192卡的一體機,就夠用了,那么我們也可以交付這樣的一體機,確保快速地部署,落地即用。這是第一點。
第二是我們的運維平臺。運維平臺我覺得比較有特色。為什么?L4的系統我們是比較早去嘗試訂閱服務的模式的。就是我賣了這么一個系統以后,因為這個系統里面加了一個AI司機,我每年針對AI司機能夠收一點工資,這就是一個訂閱服務。
但是這個訂閱服務如果你做得不好,其實一方面你沒有辦法保障客戶的滿意度。假設說一輛車一天工作20個小時,24小時當中只有4個小時在檢修,20個小時99.99%的可用率,也就是一年只有差不多一個小時是沒有在工作狀態,這個要求非常高。
另一方面,像L4的系統,比如一個激光雷達可能就幾萬塊錢,一個域控又幾萬塊錢,那一年的訂閱費可能也就是幾萬塊錢。如果說你不能有很好的一種運維平臺,那你訂閱服務的這種模式最終是會虧錢的。所以,我們做了一個很好的云服務平臺,這樣的運維的能力也是可以輸出的。

最終做一個總結,我們這么一個小團隊應該怎么去做乘用車的智駕。
第一,我們身段非常靈活,可以提供硬件參考設計、整體軟件包,或者是單個模塊的算法或者軟件,或者,我們沒有數據和沒有算力,我們可以為有數據和算力的客戶提供數據/云端服務。
第二,我們也有非常好的算法,一直在緊跟特斯拉的SOTA算法。我們可以模塊化交付我們的算法模塊,也可以交付整體的軟硬件一體的產品,或者是軟件包再加上硬件的參考設計。
這個產品我們就聚焦在EAP這種高速NOA再加上行泊一體,再加上記憶行車的這樣一種形態上。這樣的形態我們希望做到極致的智價比,能夠下沉到10萬塊錢的平臺,我們可以支持Tier1或者OEM把這樣的產品打造出來。