亚洲一区二区三区无吗_中文视频一区_yw.尤物在线精品视频_亚洲一区中文在线

首頁 > 活動線報(bào) > 每日福利 > AI大腦讓機(jī)器人更像人了

AI大腦讓機(jī)器人更像人了

發(fā)布時(shí)間:2024-06-01 17:25:57

這是一段人類與機(jī)器人之間的對話。焦繼超首次聽到這段對話時(shí)非常激動,因?yàn)橐酝鶛C(jī)器人是不會這樣回應(yīng)的,機(jī)器人可能會嘗試解釋口渴的原因,或者干脆沒有任何反應(yīng)。

焦繼超是深圳市優(yōu)必選科技股份有限公司(09880.HK,下稱“優(yōu)必選”)的科技副總裁、研究院執(zhí)行院長。他說,過去,即使一個機(jī)器人詞匯量再大,也無法真正聽懂人類的語言,只會響應(yīng)預(yù)設(shè)的關(guān)鍵詞。這種情況在實(shí)際互動中的局限非常明顯,例如,機(jī)器人能理解具體的命令“給我倒杯水”,但無法理解更抽象地表述“我口渴了”。

焦繼超說:“即使是三歲的小孩也知道‘口渴’意味著需要喝水。”2016年,優(yōu)必選啟動了第一代人形機(jī)器人的研發(fā)工作。盡管研發(fā)團(tuán)隊(duì)能夠讓機(jī)器人的骨架和關(guān)節(jié)實(shí)現(xiàn)非常精準(zhǔn)地運(yùn)動,但提升其“大腦”的智能性始終是個難題。

機(jī)器人之所以能夠完成這段對話,是因?yàn)樗捎昧讼馛hatGPT(OpenAI研發(fā)的一款聊天機(jī)器人程序)這樣的人工智能大型語言模型。

大語言模型技術(shù)第一次成功模擬了人類的語言系統(tǒng),讓機(jī)器人實(shí)現(xiàn)與人類自然對話。AI(人工智能)大模型技術(shù)的快速更新又讓機(jī)器人陸續(xù)擁有了類似人類的“眼睛”和“耳朵”等感官。通過視覺和語音大模型,機(jī)器人能夠更好地感知和理解周圍環(huán)境。當(dāng)大模型演進(jìn)到更高級的階段,不僅能夠處理和響應(yīng)各種信息,還能夠自主決策和執(zhí)行任務(wù),模擬出越來越接近人類大腦的功能。

人工智能技術(shù)起源于20世紀(jì)50年代,它朝著模仿人類大腦的方向演進(jìn)了七十多年,卻始終游走于數(shù)字世界;機(jī)器人技術(shù)起源于更早的20世紀(jì)20年代,并經(jīng)歷了超過一個世紀(jì)的發(fā)展,機(jī)器人已經(jīng)擁有了靈活的身軀和骨架,但一直未能獲得一個聰明的大腦。

在長期發(fā)展和“雙向奔赴”后,這兩大技術(shù)終于在當(dāng)前的時(shí)間點(diǎn)交匯,這讓人工智能以實(shí)體之軀步入現(xiàn)實(shí),去觸摸和改變世界;而機(jī)器人也不再只是執(zhí)行簡單命令的機(jī)械,而是變得能夠思考、學(xué)習(xí)和適應(yīng)環(huán)境,像人類一樣在工業(yè)生產(chǎn)線、醫(yī)療手術(shù)臺上工作。

焦繼超說:“這是一次質(zhì)的躍遷,人形機(jī)器人的iPhone時(shí)刻到來了。”

讓機(jī)器人像人一樣說話

機(jī)器人“成為”人的第一關(guān)是語言。

起初,優(yōu)必選嘗試使用傳統(tǒng)的處理方法和AI小模型來實(shí)現(xiàn)這一目標(biāo):先給機(jī)器人預(yù)設(shè)一些關(guān)鍵詞,然后再利用傳統(tǒng)的小語言模型(SLM)進(jìn)行語義分割,通過識別關(guān)鍵詞來讓機(jī)器人觸發(fā)相應(yīng)的指令。

焦繼超將這個過程描述為“類似于條件反射”。盡管這種方法能夠讓機(jī)器人熟悉特定的語言命令,但對于未預(yù)設(shè)過的關(guān)鍵詞和命令,機(jī)器人很難給出正確的反應(yīng)。

為了擴(kuò)展機(jī)器人的“詞匯量”,企業(yè)不得不通過編程不斷添加預(yù)設(shè)程序和關(guān)鍵詞,以模擬更多的條件反射,讓機(jī)器人能響應(yīng)更多的人類語言。這一過程既煩瑣又復(fù)雜,涉及數(shù)據(jù)采集、標(biāo)注、訓(xùn)練以及驗(yàn)證推理等多個環(huán)節(jié),工程師們還需要不斷地調(diào)整參數(shù)。

盡管團(tuán)隊(duì)付出了巨大的努力,但機(jī)器人在語言理解上始終存在局限,無法達(dá)到與人類自然對話的水平。反應(yīng)慢、缺乏思考和推理能力,對于預(yù)設(shè)之外的新情況和問題,機(jī)器人往往無法給出合適的反應(yīng)。焦繼超說,這無疑給團(tuán)隊(duì)帶來了巨大的挑戰(zhàn)。

面對這種情況,他們轉(zhuǎn)而探索另一種技術(shù)——知識圖譜技術(shù)。他們構(gòu)建了一個龐大的知識圖譜庫,希望通過命中關(guān)鍵詞來搜索數(shù)據(jù)庫中的知識,并據(jù)此生成回答。這種方法在一定程度上提升了機(jī)器人對自然語言的理解能力,但仍然存在局限性,機(jī)器人的回答往往預(yù)設(shè)性強(qiáng),缺乏靈活性和人性化,這與團(tuán)隊(duì)追求的自然、流暢的人機(jī)交互體驗(yàn)仍有很大的差距。

經(jīng)歷了一系列的嘗試后,焦繼超認(rèn)識到,要實(shí)現(xiàn)真正的突破,需要更先進(jìn)的技術(shù)。

機(jī)器人有了嘴巴、眼睛和耳朵

2021年底,OpenAI發(fā)布了具有里程碑意義的ChatGPT模型。ChatGPT以其強(qiáng)大的語言理解和生成能力引起了廣泛關(guān)注,它在自然語言處理技術(shù)上取得了飛躍式的進(jìn)步,開啟了人工智能的“大模型時(shí)代”。

商湯科技智能產(chǎn)業(yè)研究院院長田豐對經(jīng)濟(jì)觀察報(bào)說,在IT時(shí)代,人類通過編程語言開發(fā)軟件、實(shí)現(xiàn)人機(jī)對話,而大語言模型的出現(xiàn)簡化了這一流程,通過“人類母語”就能實(shí)現(xiàn)人機(jī)對話,這顯著降低了軟硬件開發(fā)和使用AI的門檻。

焦繼超首次使用ChatGPT時(shí)感到非常興奮,因?yàn)檫@種技術(shù)為解決機(jī)器人的語言交互問題提供了新的可能性。2022年初,焦繼超團(tuán)隊(duì)通過開源的方式引入了大語言模型,并嘗試將其與機(jī)器人現(xiàn)有的系統(tǒng)集成,利用多年積累的數(shù)據(jù)和場景來提升機(jī)器人的語言交互能力。

結(jié)果令焦繼超驚喜,他舉例稱,當(dāng)用戶說“我有口腔潰瘍”時(shí),機(jī)器能夠理解其含義并推理出“緩解癥狀需要補(bǔ)充維生素”“水果里有維生素”,然后詢問用戶要不要吃水果,在用戶同意的前提下去為其拿取水果。

田豐說,AI大模型不僅能讀懂語言、文字,還能讀懂語氣、情緒,能敏感地捕捉和理解上下文信息。

但這還遠(yuǎn)遠(yuǎn)不夠。人類有五官,大語言模型僅僅作為機(jī)器人的語言系統(tǒng)而存在,機(jī)器人還需要多種感官能力。焦繼超注意到,處理圖像和語音的大模型也相繼被開發(fā)出來,這些模型的能力可以處理和理解機(jī)器人采集的視頻、音頻,像人的大腦能夠處理眼睛和耳朵收集到的外部信息一樣。

2023年9月,OpenAI根據(jù)ChatGPT進(jìn)一步發(fā)明出了具備圖像和語音識別功能的GPT-4V,這意味著AI開始模擬人腦中復(fù)雜的神經(jīng)網(wǎng)絡(luò)來識別圖像和聲音,并將其轉(zhuǎn)換為語言指令。

田豐稱,正如人類有視覺、聽覺、觸覺、味覺、嗅覺五感,這種多模態(tài)大模型帶來了多種感知能力。

焦繼超和團(tuán)隊(duì)運(yùn)用技術(shù)的手段將“嘴巴”“眼睛”和“耳朵”串聯(lián)起來,并實(shí)現(xiàn)互通協(xié)作,機(jī)器人變得能看懂、聽懂人類的指令,也就能夠更加準(zhǔn)確地執(zhí)行命令。

焦繼超說,當(dāng)一個機(jī)器人具備了類似人類的眼睛,只要它進(jìn)門在你家轉(zhuǎn)一圈,觀察一下,便會自主在“大腦”中形成一幅房屋的空間格局與陳設(shè)的地圖,過程中無須人為干預(yù),而在過去,一個機(jī)器人觀察環(huán)境之后,還需要工程師做大量的建模和編程,才能在機(jī)器人的“大腦”中“畫”出一幅空間地圖,為后期的行動提供導(dǎo)航。

機(jī)器人的避障反應(yīng)也更快了。

北京云跡科技股份有限公司(下稱“云跡科技”)CPO李全印稱,遇到障礙物的機(jī)器人的反應(yīng)步驟非常多,要判斷是不是要減速、是不是要躲開、向右躲還是向左躲。現(xiàn)在,公司運(yùn)用AI大模型的強(qiáng)大計(jì)算能力和更精細(xì)化的算法,開發(fā)了先進(jìn)的動態(tài)避障算法,能夠讓機(jī)器人理解環(huán)境,并快速作出正確決策。

然而,要將語言、視覺、語音等多類大模型集成在一起,組成一個完整的大腦,這并非易事。

田豐稱,多模態(tài)大模型的挑戰(zhàn)之一是如何統(tǒng)一處理差異化的跨模態(tài)數(shù)據(jù),以保證時(shí)間的同步和空間的對齊。

焦繼超說,人類感官收集信息的路徑是通過語言形式傳輸?shù)酱竽X,機(jī)器人也應(yīng)該按照這種思路來串聯(lián)它的“眼睛”“耳朵”和“嘴巴”。因此,團(tuán)隊(duì)將不同維度的信息接入到AI大模型的框架里,機(jī)器人看到的圖像和聽到的聲音以語言的形式傳入“大腦”,并讓“大腦”中的語言、視覺、聽覺系統(tǒng)彼此協(xié)作,以更好地作出決策。

僅僅能看、能聽、能說還不夠,人工智能距離真正模擬出人類大腦,還有最后一步要走——使用工具、自主執(zhí)行任務(wù)。

田豐稱,當(dāng)人工智能技術(shù)從單模態(tài)發(fā)展到多模態(tài),并可以將AI大模型、記憶庫、執(zhí)行體組合到一起的時(shí)候,就進(jìn)化出了一種新形態(tài)——智能體(AIAgent)。

在形態(tài)上,智能體可以是純軟件的,也可以嵌入到硬件中。相較于AI大模型,它的升級之處在于進(jìn)一步模擬了人類的決策和行動過程。如果AI大模型是一臺發(fā)動機(jī),智能體就是一輛汽車。智能體不僅依賴于AI大模型的計(jì)算能力,還需要調(diào)用各種工具和執(zhí)行部件來完成任務(wù)。

每日福利更多>>

躋身智駕體驗(yàn)第一梯隊(duì)|寶馬攜手Momenta共研專屬智能駕駛輔助系統(tǒng) 陣痛中迎來曙光,上汽通用加減法中的膽氣 馭電蓉城破霧疾馳|保時(shí)捷純電動Macan南區(qū)試駕 從顛覆到引領(lǐng):問界M9重構(gòu)中國高端市場的三重密碼 理想i8卡位精準(zhǔn),造型設(shè)計(jì)仍是“軟肋”? 無條件為C11老車主換電池,論三電質(zhì)保我只服零跑! 誰還敢說中國品牌汽車不安全,這張榜單你直接甩他臉上 別克新能源轉(zhuǎn)型遇挫,E系列銷量慘淡,還有機(jī)會嗎? 好用的前備廂設(shè)計(jì),為什么能做好的那么少? 當(dāng)童年魔法遇見無限靈感,「靈動出奇 城市漫游」登陸天津 家庭智能出行新體驗(yàn),小鵬G7盛大上市,售價(jià)19.58萬元起 蔚來樂道 L90 重塑標(biāo)桿 重新定義純電家庭出行方式 傳統(tǒng)燃油車6月反彈? 中汽協(xié):上半年多指標(biāo)兩位數(shù)增長 方程豹再攀新高躋身新勢力第7,承諾為智能泊車兜底 靈動好看 實(shí)用好開 比亞迪海鷗“非常鷗克” 6月車企銷量TOP10:車企的生存“圖鑒” 尚界首款車型預(yù)熱海報(bào)來了! 漢家族交付破百萬,比亞迪漢L賽道體驗(yàn)日引爆性能狂歡 德系基因的再延伸,捷達(dá)VS8官圖發(fā)布 電動化浪潮下,寶馬堅(jiān)守駕駛初心 搶不到人才,自研智駕的車企,突然被華為甩開距離 北京現(xiàn)代ELEXIO將9月上市,內(nèi)飾布局也很“理想” 全新菲亞特500官圖,1.0升三缸混動,還是手動版本 消息稱鴻蒙智行上周新增訂單1萬臺左右,尊界S800車型占比接近10% 國四舊車淘汰置換34m³乘龍M3 6x2飼料車最高補(bǔ)10萬 蔚來冠軍紀(jì)念版,競速美學(xué)與極致駕控的完美融合 昆侖決104風(fēng)云再起iCAR V23實(shí)力演繹15萬級“最能打”的純電方盒子 全系200馬力,1.5T+8AT,我看現(xiàn)代途勝L挺值得入手! 智駕一百多年前就有了,比亞迪又把它提升一個新高度 等什么等?海豹06DM-i旅行版正式上市:把“以后”變成“現(xiàn)在”
主站蜘蛛池模板: 镇赉县| 彭山县| 灵宝市| 怀柔区| 迁安市| 家居| 缙云县| 台安县| 淮南市| 衡阳县| 江阴市| 黔西| 来凤县| 望江县| 忻州市| 葵青区| 辰溪县| 大城县| 临武县| 海原县| 浙江省| 元谋县| 格尔木市| 高淳县| 阿巴嘎旗| 遂平县| 黄平县| 泾源县| 三台县| 达日县| 肥乡县| 曲阳县| 武定县| 蕲春县| 庆云县| 辉南县| 汾西县| 邵阳市| 呼图壁县| 道孚县| 慈溪市|