国产成人精品免费视频大全最热 ,av成人午夜,欧美午夜精品一区

這是一段人類與機(jī)器人之間的對話。焦繼超首次聽到這段對話時(shí)非常激動，因?yàn)橐酝鶛C(jī)器人是不會這樣回應(yīng)的，機(jī)器人可能會嘗試解釋口渴的原因，或者干脆沒有任何反應(yīng)。

焦繼超是深圳市優(yōu)必選科技股份有限公司（09880.HK，下稱“優(yōu)必選”）的科技副總裁、研究院執(zhí)行院長。他說，過去，即使一個機(jī)器人詞匯量再大，也無法真正聽懂人類的語言，只會響應(yīng)預(yù)設(shè)的關(guān)鍵詞。這種情況在實(shí)際互動中的局限非常明顯，例如，機(jī)器人能理解具體的命令“給我倒杯水”，但無法理解更抽象地表述“我口渴了”。

焦繼超說：“即使是三歲的小孩也知道‘口渴’意味著需要喝水。”2016年，優(yōu)必選啟動了第一代人形機(jī)器人的研發(fā)工作。盡管研發(fā)團(tuán)隊(duì)能夠讓機(jī)器人的骨架和關(guān)節(jié)實(shí)現(xiàn)非常精準(zhǔn)地運(yùn)動，但提升其“大腦”的智能性始終是個難題。

機(jī)器人之所以能夠完成這段對話，是因?yàn)樗捎昧讼馛hatGPT（OpenAI研發(fā)的一款聊天機(jī)器人程序）這樣的人工智能大型語言模型。

大語言模型技術(shù)第一次成功模擬了人類的語言系統(tǒng)，讓機(jī)器人實(shí)現(xiàn)與人類自然對話。AI（人工智能）大模型技術(shù)的快速更新又讓機(jī)器人陸續(xù)擁有了類似人類的“眼睛”和“耳朵”等感官。通過視覺和語音大模型，機(jī)器人能夠更好地感知和理解周圍環(huán)境。當(dāng)大模型演進(jìn)到更高級的階段，不僅能夠處理和響應(yīng)各種信息，還能夠自主決策和執(zhí)行任務(wù)，模擬出越來越接近人類大腦的功能。

人工智能技術(shù)起源于20世紀(jì)50年代，它朝著模仿人類大腦的方向演進(jìn)了七十多年，卻始終游走于數(shù)字世界；機(jī)器人技術(shù)起源于更早的20世紀(jì)20年代，并經(jīng)歷了超過一個世紀(jì)的發(fā)展，機(jī)器人已經(jīng)擁有了靈活的身軀和骨架，但一直未能獲得一個聰明的大腦。

在長期發(fā)展和“雙向奔赴”后，這兩大技術(shù)終于在當(dāng)前的時(shí)間點(diǎn)交匯，這讓人工智能以實(shí)體之軀步入現(xiàn)實(shí)，去觸摸和改變世界；而機(jī)器人也不再只是執(zhí)行簡單命令的機(jī)械，而是變得能夠思考、學(xué)習(xí)和適應(yīng)環(huán)境，像人類一樣在工業(yè)生產(chǎn)線、醫(yī)療手術(shù)臺上工作。

焦繼超說：“這是一次質(zhì)的躍遷，人形機(jī)器人的iPhone時(shí)刻到來了。”

讓機(jī)器人像人一樣說話

機(jī)器人“成為”人的第一關(guān)是語言。

起初，優(yōu)必選嘗試使用傳統(tǒng)的處理方法和AI小模型來實(shí)現(xiàn)這一目標(biāo)：先給機(jī)器人預(yù)設(shè)一些關(guān)鍵詞，然后再利用傳統(tǒng)的小語言模型（SLM）進(jìn)行語義分割，通過識別關(guān)鍵詞來讓機(jī)器人觸發(fā)相應(yīng)的指令。

焦繼超將這個過程描述為“類似于條件反射”。盡管這種方法能夠讓機(jī)器人熟悉特定的語言命令，但對于未預(yù)設(shè)過的關(guān)鍵詞和命令，機(jī)器人很難給出正確的反應(yīng)。

為了擴(kuò)展機(jī)器人的“詞匯量”，企業(yè)不得不通過編程不斷添加預(yù)設(shè)程序和關(guān)鍵詞，以模擬更多的條件反射，讓機(jī)器人能響應(yīng)更多的人類語言。這一過程既煩瑣又復(fù)雜，涉及數(shù)據(jù)采集、標(biāo)注、訓(xùn)練以及驗(yàn)證推理等多個環(huán)節(jié)，工程師們還需要不斷地調(diào)整參數(shù)。

盡管團(tuán)隊(duì)付出了巨大的努力，但機(jī)器人在語言理解上始終存在局限，無法達(dá)到與人類自然對話的水平。反應(yīng)慢、缺乏思考和推理能力，對于預(yù)設(shè)之外的新情況和問題，機(jī)器人往往無法給出合適的反應(yīng)。焦繼超說，這無疑給團(tuán)隊(duì)帶來了巨大的挑戰(zhàn)。

面對這種情況，他們轉(zhuǎn)而探索另一種技術(shù)——知識圖譜技術(shù)。他們構(gòu)建了一個龐大的知識圖譜庫，希望通過命中關(guān)鍵詞來搜索數(shù)據(jù)庫中的知識，并據(jù)此生成回答。這種方法在一定程度上提升了機(jī)器人對自然語言的理解能力，但仍然存在局限性，機(jī)器人的回答往往預(yù)設(shè)性強(qiáng)，缺乏靈活性和人性化，這與團(tuán)隊(duì)追求的自然、流暢的人機(jī)交互體驗(yàn)仍有很大的差距。

經(jīng)歷了一系列的嘗試后，焦繼超認(rèn)識到，要實(shí)現(xiàn)真正的突破，需要更先進(jìn)的技術(shù)。

機(jī)器人有了嘴巴、眼睛和耳朵

2021年底，OpenAI發(fā)布了具有里程碑意義的ChatGPT模型。ChatGPT以其強(qiáng)大的語言理解和生成能力引起了廣泛關(guān)注，它在自然語言處理技術(shù)上取得了飛躍式的進(jìn)步，開啟了人工智能的“大模型時(shí)代”。

商湯科技智能產(chǎn)業(yè)研究院院長田豐對經(jīng)濟(jì)觀察報(bào)說，在IT時(shí)代，人類通過編程語言開發(fā)軟件、實(shí)現(xiàn)人機(jī)對話，而大語言模型的出現(xiàn)簡化了這一流程，通過“人類母語”就能實(shí)現(xiàn)人機(jī)對話，這顯著降低了軟硬件開發(fā)和使用AI的門檻。

焦繼超首次使用ChatGPT時(shí)感到非常興奮，因?yàn)檫@種技術(shù)為解決機(jī)器人的語言交互問題提供了新的可能性。2022年初，焦繼超團(tuán)隊(duì)通過開源的方式引入了大語言模型，并嘗試將其與機(jī)器人現(xiàn)有的系統(tǒng)集成，利用多年積累的數(shù)據(jù)和場景來提升機(jī)器人的語言交互能力。

結(jié)果令焦繼超驚喜，他舉例稱，當(dāng)用戶說“我有口腔潰瘍”時(shí)，機(jī)器能夠理解其含義并推理出“緩解癥狀需要補(bǔ)充維生素”“水果里有維生素”，然后詢問用戶要不要吃水果，在用戶同意的前提下去為其拿取水果。

田豐說，AI大模型不僅能讀懂語言、文字，還能讀懂語氣、情緒，能敏感地捕捉和理解上下文信息。

但這還遠(yuǎn)遠(yuǎn)不夠。人類有五官，大語言模型僅僅作為機(jī)器人的語言系統(tǒng)而存在，機(jī)器人還需要多種感官能力。焦繼超注意到，處理圖像和語音的大模型也相繼被開發(fā)出來，這些模型的能力可以處理和理解機(jī)器人采集的視頻、音頻，像人的大腦能夠處理眼睛和耳朵收集到的外部信息一樣。

2023年9月，OpenAI根據(jù)ChatGPT進(jìn)一步發(fā)明出了具備圖像和語音識別功能的GPT-4V，這意味著AI開始模擬人腦中復(fù)雜的神經(jīng)網(wǎng)絡(luò)來識別圖像和聲音，并將其轉(zhuǎn)換為語言指令。

田豐稱，正如人類有視覺、聽覺、觸覺、味覺、嗅覺五感，這種多模態(tài)大模型帶來了多種感知能力。

焦繼超和團(tuán)隊(duì)運(yùn)用技術(shù)的手段將“嘴巴”“眼睛”和“耳朵”串聯(lián)起來，并實(shí)現(xiàn)互通協(xié)作，機(jī)器人變得能看懂、聽懂人類的指令，也就能夠更加準(zhǔn)確地執(zhí)行命令。

焦繼超說，當(dāng)一個機(jī)器人具備了類似人類的眼睛，只要它進(jìn)門在你家轉(zhuǎn)一圈，觀察一下，便會自主在“大腦”中形成一幅房屋的空間格局與陳設(shè)的地圖，過程中無須人為干預(yù)，而在過去，一個機(jī)器人觀察環(huán)境之后，還需要工程師做大量的建模和編程，才能在機(jī)器人的“大腦”中“畫”出一幅空間地圖，為后期的行動提供導(dǎo)航。

機(jī)器人的避障反應(yīng)也更快了。

北京云跡科技股份有限公司（下稱“云跡科技”）CPO李全印稱，遇到障礙物的機(jī)器人的反應(yīng)步驟非常多，要判斷是不是要減速、是不是要躲開、向右躲還是向左躲。現(xiàn)在，公司運(yùn)用AI大模型的強(qiáng)大計(jì)算能力和更精細(xì)化的算法，開發(fā)了先進(jìn)的動態(tài)避障算法，能夠讓機(jī)器人理解環(huán)境，并快速作出正確決策。

然而，要將語言、視覺、語音等多類大模型集成在一起，組成一個完整的大腦，這并非易事。

田豐稱，多模態(tài)大模型的挑戰(zhàn)之一是如何統(tǒng)一處理差異化的跨模態(tài)數(shù)據(jù)，以保證時(shí)間的同步和空間的對齊。

焦繼超說，人類感官收集信息的路徑是通過語言形式傳輸?shù)酱竽X，機(jī)器人也應(yīng)該按照這種思路來串聯(lián)它的“眼睛”“耳朵”和“嘴巴”。因此，團(tuán)隊(duì)將不同維度的信息接入到AI大模型的框架里，機(jī)器人看到的圖像和聽到的聲音以語言的形式傳入“大腦”，并讓“大腦”中的語言、視覺、聽覺系統(tǒng)彼此協(xié)作，以更好地作出決策。

僅僅能看、能聽、能說還不夠，人工智能距離真正模擬出人類大腦，還有最后一步要走——使用工具、自主執(zhí)行任務(wù)。

田豐稱，當(dāng)人工智能技術(shù)從單模態(tài)發(fā)展到多模態(tài)，并可以將AI大模型、記憶庫、執(zhí)行體組合到一起的時(shí)候，就進(jìn)化出了一種新形態(tài)——智能體（AIAgent）。

在形態(tài)上，智能體可以是純軟件的，也可以嵌入到硬件中。相較于AI大模型，它的升級之處在于進(jìn)一步模擬了人類的決策和行動過程。如果AI大模型是一臺發(fā)動機(jī)，智能體就是一輛汽車。智能體不僅依賴于AI大模型的計(jì)算能力，還需要調(diào)用各種工具和執(zhí)行部件來完成任務(wù)。

亚洲一区二区三区无吗_中文视频一区_yw.尤物在线精品视频_亚洲一区中文在线

AI大腦讓機(jī)器人更像人了

每日福利更多>>