
3月30日至31日,2024中國(guó)具身智能大會(huì)(CEAI 2024)在徐匯西岸舉行。此次大會(huì)主題為“具身共生,智塑未來(lái)”,首日開(kāi)幕式上,上海具身智能產(chǎn)業(yè)與創(chuàng)新聯(lián)盟正式啟動(dòng),初始成員涵蓋產(chǎn)業(yè)鏈上下游企業(yè)及政府、高校和研究機(jī)構(gòu)。
根據(jù)中國(guó)計(jì)算機(jī)學(xué)會(huì)的定義,具身智能(Embodied Artificial Intelligence)涉及人工智能、機(jī)器人學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等學(xué)科,實(shí)質(zhì)是強(qiáng)調(diào)有物理身體的智能體通過(guò)與物理環(huán)境進(jìn)行交互,從而獲得智能的人工智能研究范式。
眼下,作為人工智能領(lǐng)域的前沿?zé)狳c(diǎn),具身智能正逐步從理論走向?qū)嵺`,從實(shí)驗(yàn)室走向現(xiàn)實(shí)。但對(duì)這一潛力巨大的“藍(lán)海”市場(chǎng),很多人尚覺(jué)得陌生。具身智能可以做什么、改變什么,與大模型之間有怎樣的關(guān)聯(lián)?這些疑問(wèn)的背后,預(yù)示著代表了軟硬件耦合共生、相互賦能的具身智能,正飛速走進(jìn)人類的生產(chǎn)和生活。

大會(huì)現(xiàn)場(chǎng)
為何是當(dāng)下
2023世界人工智能大會(huì),生成式人工智能(AIGC)成為絕對(duì)主角,“具身智能”的關(guān)注度也扶搖直上。但非業(yè)界人士則一頭霧水,“第一次聽(tīng)說(shuō)。”
具身智能是一種怎樣的“智能”?上海交通大學(xué)教授盧策吾提供了一種定義。“通俗說(shuō),就是具有身體的智能,電腦可視作‘沒(méi)有身體的智能’代表。”在他看來(lái),聚焦具身智能,現(xiàn)在恰逢其時(shí)。從科學(xué)角度看,人類對(duì)自身、對(duì)視覺(jué)的理解以及運(yùn)動(dòng)控制技術(shù)達(dá)到的水平,集合起來(lái)已經(jīng)能形成一個(gè)圍繞具身智能的科學(xué)范疇。而從產(chǎn)業(yè)角度看,目前具身智能涉及的軟硬件技術(shù)已初步成熟,整個(gè)產(chǎn)業(yè)正蓄勢(shì)待發(fā)。
中國(guó)工程院院士、中國(guó)人工智能學(xué)會(huì)(CAAI)理事長(zhǎng)戴瓊海表示,今年政府工作報(bào)告指出將深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用,開(kāi)展“人工智能+”行動(dòng)。具身智能恰恰是當(dāng)前人工智能技術(shù)走向物理世界的前沿方向,既是機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等技術(shù)的集成應(yīng)用,更是對(duì)類人能力和類人智慧的挑戰(zhàn)與探索。
爆發(fā)點(diǎn)就在當(dāng)下。中國(guó)工程院院士蔣昌俊表示,以O(shè)penAI為代表的企業(yè)利用大量互聯(lián)網(wǎng)文本和圖像數(shù)據(jù),構(gòu)建了ChatGPT等大語(yǔ)言模型,首次展示了AI解決多種任務(wù)的能力,也讓人類看到了跨越領(lǐng)域限制、實(shí)現(xiàn)通用人工智能(AGI)的潛力。
“雖然ChatGPT等大模型已展現(xiàn)出處理多模態(tài)數(shù)據(jù)和滿足人類需求的交互能力,但這種交互仍局限于數(shù)字世界。”蔣昌俊表示,要實(shí)現(xiàn)真正的通用人工智能,需要賦予AI在真實(shí)物理世界中交互的能力。這意味著要讓AI擁有實(shí)體,像人類一樣具備感知、思考和行動(dòng)能力。

松靈機(jī)器人
作為人工智能與機(jī)器人兩大前沿技術(shù)的結(jié)合,具身智能被視為新質(zhì)生產(chǎn)力的重要組成部分。去年5月,芯片制造商英偉達(dá)首席執(zhí)行官黃仁勛也曾表示,人工智能的下一個(gè)浪潮將是具身智能,即能理解、推理并與物理世界互動(dòng)的智能系統(tǒng)。
對(duì)于具身智能目前的“隱隱爆發(fā)”之勢(shì),中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員蔣樹(shù)強(qiáng)認(rèn)為,ChatGPT、Sora等依靠互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的模型偏向“離身智能”,具身智能需要走進(jìn)真實(shí)的物理世界,對(duì)從民生到航空航天的各類產(chǎn)業(yè)進(jìn)行賦能,并對(duì)現(xiàn)實(shí)環(huán)境進(jìn)行反饋,這就意味著千行百業(yè)都會(huì)有具身智能的用武之地。
與大模型的關(guān)聯(lián)
在具身智能大會(huì)舉辦前一周,全球開(kāi)發(fā)者先鋒大會(huì)也在同一地點(diǎn)徐匯西岸舉辦。一周前的大模型討論熱度還未散去,具身智能的“新爆點(diǎn)”又接連亮相。具身智能與大模型之間,有怎樣的關(guān)聯(lián)?
盧策吾表示,相較把大模型視作具身智能的“大腦”,它更像是一種工具。“就像解決力學(xué)問(wèn)題會(huì)用到牛頓定律,具身智能也會(huì)有自己的‘解決定律’,即自己的大模型。”但與大語(yǔ)言模型、視覺(jué)大模型不同的是,真實(shí)場(chǎng)景的訓(xùn)練成本很高,不可能像在數(shù)字世界那樣24小時(shí)高速運(yùn)轉(zhuǎn)。因而具身智能大模型勢(shì)必會(huì)有一套新的訓(xùn)練框架,而這正是盧策吾和他所在的上海交大團(tuán)隊(duì)正在研究的方向。

松靈機(jī)器人 舒抒 攝
當(dāng)天大會(huì),與會(huì)嘉賓提到,上一輪以ChatGPT、Sora等為代表的生成式人工智能,北美取得了較為明顯的領(lǐng)先身位。但在具身智能領(lǐng)域,雖然我國(guó)的技術(shù)起步和浪潮涌現(xiàn)比北美稍遲了三年左右,但目前全球基本處于同一技術(shù)起跑線,都處在“爆發(fā)期開(kāi)始前”。
在盧策吾看來(lái),我國(guó)目前具備兩大優(yōu)勢(shì)。其一是機(jī)器人硬件制造,其二是應(yīng)用場(chǎng)景的數(shù)量和豐富程度。“倉(cāng)儲(chǔ)物流、食品加工、餐飲業(yè)和醫(yī)療服務(wù)業(yè)都陸續(xù)啟用了具身智能,或許20年后,人們家中都會(huì)有家用養(yǎng)老機(jī)器人來(lái)照顧自己和家人,這些都是具身智能。”
如何將這些優(yōu)勢(shì)變成“盛世”,則需要產(chǎn)學(xué)研各界共同努力。
記者注意到,在具身智能大會(huì)的展示區(qū),不少企業(yè)都搬出了“看家法寶”,包括能夠流暢交流對(duì)話的客服機(jī)器人、適應(yīng)復(fù)雜地形環(huán)境的四足機(jī)器人、匹配多種流水線作業(yè)的工業(yè)機(jī)器人等。裝有AI大模型“大腦”的機(jī)器人可從事家政服務(wù)、養(yǎng)老陪護(hù)、教育醫(yī)療、設(shè)施巡檢、搶險(xiǎn)救災(zāi)等多種工作,展現(xiàn)具身智能在通用場(chǎng)景、專業(yè)領(lǐng)域、垂直工業(yè)等賽道的最新應(yīng)用成果。
在上海傅利葉智能科技有限公司展臺(tái),一臺(tái)泛著帥氣金屬光澤的深灰色機(jī)器人正在揮動(dòng)手臂。這款機(jī)器人名為GR-1,即“General Robotics”通用機(jī)器人的縮寫。現(xiàn)場(chǎng)工作人員介紹,目前企業(yè)聚焦機(jī)器人本體,從硬件結(jié)構(gòu)到運(yùn)動(dòng)控制算法都具備了核心技術(shù)優(yōu)勢(shì)。
這款具身智能產(chǎn)品的“聰明勁”主要表現(xiàn)在兩方面:運(yùn)動(dòng)能力和大腦交互能力。運(yùn)動(dòng)方面可完成跳、跑等動(dòng)作,招手、行走和舞蹈也不在話下,可在不同場(chǎng)景下滿足不同客戶的需求。“我們開(kāi)放接口,客戶只需基于我們的平臺(tái)去完成上層設(shè)計(jì),就能讓機(jī)器人完成相應(yīng)的工作,在工業(yè)生產(chǎn)及教育等領(lǐng)域已開(kāi)始應(yīng)用。”
