6月4日消息,今年4月,著名計算機科學家、斯坦福教授,有“AI教母”之稱的李飛飛在溫哥華舉行的2024年TED大會上,發表了以《有了空間智能,AI將會理解現實世界》為題的15分鐘演講,分享了她關于空間智能及其改變世界的力量的看法。
值得一提的是,李飛飛在斯坦福大學的個人資料顯示,她從2024年初到2025年底處于部分休假狀態。據路透社報道,目前她正在創辦一家初創公司,創業的方向正是空間智能。
李飛飛在演講中提到,隨著神經網絡算法的出現、GPU能力的提升,加上大數據的助力,計算機視覺領域實現了快速的發展。
目前,研究者們已經不滿足于僅僅讓計算機看見世界,而是追求讓計算機理解世界,在觀察世界這個三維空間的過程中學習知識并做出行動。這便是所謂的“空間智能”(Spatial Intelligence)。
李飛飛指出,行動的沖動是所有具有空間智能的生物的天性。如果想讓目前的AI實現能力上的突破,完全發揮出當下這場數字寒武紀大爆發的潛力,空間智能是必不可少的。
同時,她也提醒道,要實現空間智能并不容易。開發者需要深思熟慮,確保AI技術始終以人為本。但如果我們真的能開發出造福人類的空間智能計算機與機器人,我們定能創造出一個更為美好的世界。
以下是李飛飛四月份TED演講的完整編譯:
一、看見世界理解世界,是智能的催化劑
我要向大家展示一些東西。確切地說,我要展示的是一片虛無。這就是5.4億年前的世界:純粹的、無盡的黑暗。世界一片漆黑并不是因為缺乏光線,而是因為缺乏能看見這個世界的眼睛。
在這個世界里,陽光能穿透到一公里深的海底,海底熱液噴口也正散發著光芒,生命在這里蓬勃發展。但在這些古老的水域中,卻沒有一只眼睛能夠看到這些景象。沒有視網膜,沒有角膜,沒有晶狀體。所有這些光芒,所有這些生命都無人見證。
在過去,“看”這一概念并不存在,沒有生物真的看到過世界。直到這個時刻的到來。
三葉蟲出現了,這是地球上第一種能夠感知光的生物。它們出現的原因我們目前也才略知一二。但它們是我們現在習以為常的生活環境中的第一批棲息者,也是第一批發現除了自己外還有其他事物存在的生物。它們意識到,世界是由許多其它“自我”組成的。
視覺被認為是寒武紀生命大爆發背后的推手。這是一個動物物種大量進入化石記錄的時期。最初,這些動物只是被動地接受光線,逐漸演變成更為主動的行為。神經系統開始進化。視力轉化為洞察力,理解轉化為行動,這一切催生了智能。
二、三股力量推動AI時代到來,不可能已成為可能
現在,我們不再滿足于僅僅依靠自然賦予我們的視覺智能。好奇心驅使我們創造出和我們一樣甚至更聰明的機器。
九年前,在這個舞臺上,我匯報了計算機視覺這一AI分支領域的早期進展。當時,有三股強大的力量首次匯聚在一起:第一股力量是一種被稱為神經網絡的算法家族;第二股力量是快速的專用計算硬件,也就是GPU;第三股力量是大數據,比如我的實驗室當時花了數年時間構建出來的ImageNet圖片數據庫。這三股力量一同推動了AI時代的到來。
我們現在已經有了長足進步。當時,單單是給圖片打上標簽就是一個重大的突破。但這些算法的速度和準確度迅速提高。由我的實驗室主導的年度ImageNet挑戰賽評估了這一進展。在這個圖表上,你可以看到每年的改進和具有里程碑意義的模型。
我們更進一步,創建了能夠分割對象或預測它們之間動態關系的算法,這一算法是我的學生和合作者們的工作成果。
不僅如此,還記得上次我展示的第一個能用自然語言描述照片的計算機視覺算法嗎?那是我和我杰出的學生Andrej Karpathy合作的成果。當時,我碰運氣般地問他:“Andrej,我們能讓計算機做相反的操作嗎?”Andrej笑著說:“哈哈,那是不可能的。”
但正如這篇推文中所說的,不久前,不可能的事情變成了可能。
這要歸功于一系列擴散模型,它們推動了如今生成式AI算法的發展。這些算法可以根據人類提示的句子生成全新的照片和視頻。許多人已經看到了OpenAI的Sora最近令人印象深刻的成果。
但即便沒有大量的GPU,我的學生和我們的合作者也開發出了一個叫做Walt的生成視頻模型。我們模型的發布時間領先Sora數月。你現在看到的是其中一些生成結果。
這些結果還有改進的空間??纯茨侵回埖难劬?,還有貓雖然在水下但卻沒有打濕自己。這真是一場災難(cat-astrophe)。
三、看見世界遠遠不夠,空間智能讓看見變為行動
過去僅僅是序章,我們將從這些錯誤中學習,創造我們想象中的未來。在這個未來中,我們希望AI能幫我們完成一切事情,或者擁有幫助我們完成一切事情的能力。
數年來我一直在強調,拍下一張照片并不等于看見和理解所拍的內容。而今天我還想補充一點,僅僅是看見還遠遠不夠。
看是為了做和學。
當我們在三維空間和時間中對這個世界采取行動時,我們也在學習。我們在學習如何更好地看和做。自然創造了這個由“空間智能”(Spatial Intelligence)驅動的良性循環。為了展示“空間智能”有什么用處,我要向大家展示這張圖片。如果你看到它之后,有想要做點什么事情的沖動,請舉手。
在剛才短短的一秒鐘里,你的大腦看到了這個玻璃的幾何形狀,看到了它在三維空間中的位置,與桌子、貓等一切事物的關系。你可以預測接下來會發生什么。
行動的沖動是所有具有空間智能的生物的天性,它將感知與行動聯系在一起。如果我們想要推動AI超越當前的能力水平,我們需要的不僅是能看和說的AI。我們需要能做出行動的AI。
四、空間智能已取得初步進展,機器人可以給你做飯了
實際上,我們正在取得令人興奮的進展。最近在空間智能方面的里程碑時間是教會計算機觀察、學習、做出行動以及更好地學習和做出行動。這并不容易。
自然界花費了數百萬年時間才進化出了空間智能。這種智能需要依靠眼睛接收光線,將二維圖像投射到視網膜上,然后讓大腦將這些數據轉換為三維信息。
直到最近,谷歌的一組研究人員才開發出一種算法,可以將一組照片轉化為三維空間(如下圖所示)。
我的學生和我們的合作者更進一步,創建了一種算法,可以將一張輸入圖像轉換為三維形狀(如下圖所示)。
還記得我們談過的能夠將人類的語句轉換為視頻的計算機程序嗎?密歇根大學的一組研究人員找到了將這句話轉換為三維房間布局的方法(如下圖所示)。