亚洲一区二区三区无吗_中文视频一区_yw.尤物在线精品视频_亚洲一区中文在线

首頁 > 生活分享 > 免費教學 > 只有谷歌受傷的世界達成了,但“全能模型”到底該不該跟?

只有谷歌受傷的世界達成了,但“全能模型”到底該不該跟?

發布時間:2024-05-19 22:00:56

最近AI領域備受矚目的新聞中,OpenAI和谷歌的新品發布會,無疑占據了最多的頭條。

我們團隊當然也不例外,不僅第一時間觀看了兩家公司的發布會,還親身上手體驗了號稱“顛覆世界”“世界又科幻了”的GPT-4o。

一句話總結:OpenAI發布會,失望;谷歌發布會,無聊。

并不是我們要故作驚人之語。實際上,AI業內專業人士普遍都有類似的看法。

一些國內從事AI工程化項目的人表示,“不關心,因為又用不到”。而AI科學家和專家也有不少人直言,“看著看著睡著了,谷歌幾乎所有的東西都是對標和追趕,沒有太多的新鮮感”。

又又又一次在與OpenAI的較量中處于下風,一個只有谷歌受傷的世界達成了。

盡管兩大AI巨頭的新技術方向,仍然值得關注,但可以明確的是,隨著大型AI模型的產業化進程不斷深入,國內外參與者也越來越冷靜,更加專注于自身的AI策略與節奏。

有人將這兩場發布會比作是一場斗地主游戲,OpenAI打出一對二,谷歌就跟四個王。那么,這一次較量的核心——多模態大模型,國內AI行業是否要跟進呢?如果要跟進,又該提前考量到哪些問題呢?

每一次新產品問世,如果只跟著新聞“震驚”是很難進步的。不妨和我們一起,認真給GPT-4o算筆賬。

 

全能模型究竟“驚艷”在哪里?

谷歌反擊OpenAI的發布會,被稱為“腹瀉式更新”,一口氣推出了十來款新品及升級。之所以讓人看到睡著,是因為大家已經在前一天被GPT-4o“驚艷”過了。

而這次谷歌開發者大會上所演示的其他產品,OpenAI早都發布過。對標GPT-4o的Gemini Astra,表現又略遜一籌,也難怪大家興趣缺缺。顯然,這是一次針對谷歌的精準狙擊。此前,谷歌已經對外放出了語音助手demo演示的預熱視頻,而GPT-4o最讓人驚艷的地方就是“天花板級別”的人機自然語音交互。

那么,OpenAI機關算盡、谷歌有備而來的多模態大模型,究竟有什么神奇之處?

GPT-4o中的“o”代表“omni”,意為“全能”,以此為版本號,凸顯了GPT-4o的多功能特性,可以從三個方面理解:

1.多模態。

GPT-4o接受文本、音頻和圖像的任意組合作為輸入,實時對音頻、視覺和文本進行推理,生成相應的輸出。相比ChatGPT的文生文、文生圖,Sora的文生視頻等,GPT-4o是一個原生多模態的融合體。這一點,谷歌的Gemini Astra也能實現,支持多模態的推理。在演示視頻中,谷歌的智能助手可以理解手機攝像頭拍攝的世界(視頻、圖像),并用文字詳細地講述出來。

當然,多模態大模型并不是什么新鮮事物。不只這倆AI巨頭,國內在多模態大模型領域也有一些研究和開發。此前就有浙大校友開源了多模態大模型LLaVA,對標OpenAI的GPT-4V。既然多模態大模型并不稀奇,那GPT-4o憑啥“驚艷”?答案就在第二點。

2.低時延。

GPT-4o是一個端到端、全鏈路貫穿的多模態大模型。

此前,語音產品一般由三個獨立模型組成:SLM1將音頻轉錄為文本——LLM將文本輸出為文本——SLM2將生成文本轉換為音頻。每一步的網絡延遲疊加起來,結果就是AI推理速度跟不上人嘴巴說話的速度。大家可能都有過類似的經歷,自己都說完了,AI大模型還沒識別完全,互動總被打斷,有時還會丟失很多信息,連基本的文字都聽不清,更別說從笑聲、停頓、嘆氣等因素中分析出人的情緒了,人當然也就沒有了說下去的興致。

而GPT-4o的端到端,就是省去了中間的處理步驟,由同一個神經網絡來接受并處理來自不同模態(如文本、視覺和音頻)的輸入數據,并直接輸出結果。這樣就可以將語音交互的響應時延,控制在232 毫秒以內,體感上比人類回應還要迅速。

OpenAI演示完GPT-4o,大家紛紛表示,科幻電影中《Her》跟機器談情說愛的未來就要實現了。不過,谷歌并不這樣想。

(截圖自奧特曼的社交媒體)

在晚一天的谷歌發布會上,谷歌Gemini 1.5 Flash的響應其實也很快速,同樣能幾乎沒有延遲地跟人類流暢互動,但還是比GPT-4o要長一些。不過谷歌聲稱,自己的兩段演示視頻均為“單次拍攝、實時錄制完成”。

我們猜測,這是在暗示OpenAI又在“貸款領先”了,GPT-4o實際可能無法很快真的落地,畢竟OpenAI搞誤導性營銷是有前科的,Sora就曾爆出,拿藝術家編輯過的視頻當原視頻宣傳,演示效果并非完全由AI生成。

展示效果是真是假,有待時間驗證,不過OpenAI和谷歌在端到端方面的工作,證明了人機語音交互的超低時延是可以實現的,達到媲美人類交流的水平。而這,就為語音交互的多場景應用,打下了新的技術根基。

3.多場景。

大家應該都還記得,ChatGPT問世時舉世震驚的效果。大語言模型的強大理解能力和泛化性,可以促成NLP在多種文本任務上帶來顛覆式的影響,而這類任務幾乎遍布在各行各業。

再看GPT-4o,多模態大模型在音視頻理解方面尤其出色,也是一個非常泛在的通用型技術。而毫不夸張地說,GPT-4o將語音交互體驗做到了“天花板級別”,這幾乎可以給語音場景都帶來改變。

比如OpenAI所展示的輔導孩子數學題,可以替代家長輔導作業,讓家家都過上和諧的日子;《Her》電影中跟智能語音機器人談戀愛的場景,可以讓人人都擁有自己的網絡戀愛/在線情感撫慰師。延展開來,此前曾被嘲笑“人工智障”的手機語音助手,銀行、電信等行業的客服機器人,缺乏充足師資力量的偏遠學校,游戲里跟玩家互動的NPC紙片人,以及能識別用戶情緒的精準營銷……

凡有人聲處,皆可詠AI,正隨著端到端多模態大模型的進化與落地,讓更自然、更逼真、富有感情的人機交互成為可能。

從這個角度說,GPT-4o所代表的技術前瞻性,確實配得上“全能o”這個詞。既然如此,為什么說只有谷歌一家受傷了呢?

免費教學更多>>

6月賣出1259臺,銷量連續六個月正增長,極石汽車又行了? 上汽奧迪A5L 開啟預售,會比一汽奧迪A5L好賣嗎? 東風本田:穿越市場激流 以品質硬實力回應用戶信賴 東風本田破局戰,以長期主義構建雙重護城河 2025新能源電動汽車的銷量排名,DMH混動技術成最大贏家 30萬的預算就有50萬的排面?這四款豪華車值得一看! 賓尼法利納95周年盛典落幕 一 中意設計對話開啟下一個百年傳奇 中國特供車擱置、FSD難落地,特斯拉在華走下坡路了? 廣汽集團6月銷量15萬輛 環比上升27.5% 比亞迪漢家族交付破百萬,漢L賽道體驗日盛大啟幕引爆性能狂歡 保時捷純電卡宴內飾曝光:4塊大屏加持,僅有少量實體按鍵 上汽奧迪A5L預售價公布 價格誘人配置還超出想象? 小鵬G7起售價比Model Y便宜6.77萬 中大型SUV迎來顛覆者 東風本田上半年穩健領航,CR-V再樹合資SUV標桿 殺瘋了,吉利半年狂賣140.9萬輛,比亞迪還坐得住嗎? 率先落地艙駕融合 高通在平衡遠景和現實的解題思路 第三代UNI-V:年輕人的“跑車夢想制造機”,全方位升級煥新體驗 20萬級首個百萬銷量!漢L直接讓超跑車主沉默... 吐槽小米紙巾盒貴的,都是不懂用戶的! 別被騙了!大學生買電腦從哪幾個方面選? 10多萬買電車,要續航、還要智能,選小鵬M03,還是等零跑B01? 小鵬汽車AI天璣系統7月OTA開啟首批推送, 特斯拉逆勢漲價,底氣何來? 美女親自下場告訴你 零跑C11純電版能帶來哪些情緒價值? 27個月狂賣100萬輛,這款純電小車憑什么? 一車打天下,油電隨便選!這SUV太懂事了 榮耀Magic V5上手評測:滿血驍龍8 Elite 輕薄體驗再升級 盤點那些年曾用過的手機,有你用過的嗎? 傳音海外推出Infinix Hot 60i手機:支持無網通話功能 中興通訊亮相2025中國國際金融展
主站蜘蛛池模板: 仙居县| 广德县| 临夏县| 资阳市| 翁牛特旗| 龙门县| 沂水县| 孟州市| 集安市| 东丰县| 晴隆县| 万山特区| 胶州市| 射洪县| 额尔古纳市| 汝阳县| 滦平县| 临澧县| 西吉县| 巴彦县| 岳阳县| 肥东县| 巢湖市| 枞阳县| 东平县| 增城市| 开化县| 文昌市| 阳信县| 建瓯市| 阿勒泰市| 嘉峪关市| 同心县| 如皋市| 财经| 新津县| 大丰市| 北海市| 江都市| 乐陵市| 奎屯市|