5月17日訊(記者 朱凌)近日,OpenAI用一場26分鐘的線上直播展示了GPT-4o帶來的驚艷交互能力,將新一輪AI爭霸帶入了“Her 時代”。GPT-4o的“o”代表“omni”,一詞意為“全能”,該模型能夠?qū)崿F(xiàn)無縫的文本、視頻和音頻輸入,并生成相應(yīng)模態(tài)的輸出,真正意義上實現(xiàn)了多模態(tài)交互。
緊隨其后一天,年度Google I/O開發(fā)者大會如期而至,谷歌CEO Sundar Pichai宣布了一系列圍繞其最新生成式AI模型Gemini的重大更新,全面反擊OpenAI,其中就有由升級后Gemini模型驅(qū)動的AI助手項目Project Astra、對標(biāo)Sora的文生視頻模型Veo等。
本周AI戰(zhàn)場暫告一段落,《科創(chuàng)板日報》記者對AI界的“明星”選手——谷歌Gemini 1.5 Pro(100萬tokens)、OpenAI最新升級的GPT-4o與此前發(fā)布的GPT-4進行了一場能力評測。
▍文本測試:谷歌Gemini 1.5 Pro正確率和速度完勝GPT-4o和GPT-4
OpenAI發(fā)布GPT-4已過去一年多,據(jù)介紹,此次推出新旗艦?zāi)P虶PT-4o的推理能力有明顯的提升,速度快了,價格也下降了。
谷歌Gemini系列以其標(biāo)志性的超大上下文窗口出名,此前已擁有Ultra、Pro和Nano三種規(guī)格,各適配不同規(guī)模與需求的應(yīng)用場景。本次發(fā)布會宣布,迭代后的Gemini 1.5 Pro 的上下文長度從原有的100萬tokens(語句單位)提升到了200萬tokens。這一改進顯著增強了模型的數(shù)據(jù)處理能力,使其在處理更加復(fù)雜和龐大的數(shù)據(jù)集時更加游刃有余。
兩家公司都對自己的大模型的升級換代展現(xiàn)出自信姿態(tài),但情況還需要實際驗證。
第一題是“事實回答題”,只有谷歌Gemini 1.5 Pro模型回答正確,它能辨別出“螺絲釘并不是一種食品”這一事實。