歌放大招,AI搜索引擎來了,發布最強AI模型!發布會現場:總共提了120次AI、視頻模型登場......
雖然被OpenAI搶在前面發布了重磅新品演示,但谷歌后發制人,做到了OpenAI還沒能做到的事,率先發布人工智能(AI)搜索引擎,捍衛搜索領域的王者地位,同時對壘OpenAI新發布的旗艦模型GPT-4o,以升級版的最強大AI模型Gemini迎戰。
從北京時間5月15日凌晨1點開始,谷歌在山景城總部附近的海岸線圓形劇場,召開了長達兩個小時的年度I/O開發者大會Keynote演講。
與預期一致,谷歌的這場發布會基本都是在談AI、AI、AI、AI和AI。根據發布會最后的官方統計,整場Keynote的演講稿里總共提了120次AI。
谷歌CEO Sundar Pichai表示,谷歌所有的工作都圍繞生成式AI模型Gemini來做,“我們希望每個人都能從Gemini所做的事中受益。”AI搜索正是Pichai提到的Gemini融入谷歌多種服務之一。
同時谷歌搜索也將具備多步驟推理能力,可以一次性處理帶有多個限制條件的長問題,并支持“拍視頻”搜索解決方案的新搜索形式。
另外以上下文窗口“長”聞名的Gemini 1.5 Pro大模型,在今年晚些時候將會把100萬Tokens的窗口,進一步擴大至200萬Tokens,拓展同步處理多模態信息的邊界。而對于一些需要快速響應的場景,谷歌也推出了Gemini 1.5 Flash模型。今年2月剛剛問世的Gemma開源模型,也將在下個月迎來參數量更大的Gemma 2。在多模態領域,谷歌也發布了文生圖工具Imagen 3、與Youtube&音樂家合作的“AI音樂沙盒”,以及最新的視頻生成模型Veo。而多模態Gemini Nano模型也將在今年晚些時候登陸Pixel手機,這是在本地運行的機載模型。
值得注意的是,谷歌的發布會上也有一些與昨日OpenAI發布會“雷同”的地方——實時AI助手。從今年夏天開始,Gemini也將支持語音實時交互,同時今年晚些時候還將上線實時視頻交互。未來幾個月內,谷歌也將推出類似于GPTs的自定義AI助手功能,叫做Gems,能夠與整套“谷歌全家桶”聯動。
硬件方面,谷歌宣布了第六代TPU芯片Trillium,并透露能夠在明年初用上英偉達最新的Blackwell架構GPU。另外,液冷、光纜等中國股民可能會感興趣的題材也在發布會上出現。
Gemini 1.5 Pro上下文窗口200萬token
全球最長
谷歌稱,推出號稱有史以來最強大AI模型Gemini Advanced三個月內。從本周二起,谷歌在Gemini Advanced中加入新模型成員Gemini 1.5 Pro,稱它擁有的上下文窗口在全球消費類聊天機器人中最長,窗口起始就有100萬個token。Gemini 1.5 Pro將向150 多個國家地區的Gemini Advanced訂閱者提供,支持超過35 種語言。
Pichai稱,Gemini 1.5 Pro“提供了迄今為止所有基礎模型中最長的上下文窗口。” 他介紹,Gemini 1.5 Pro將擁有200 萬個token的上下文窗口,是當前模型100萬個token窗口的兩倍。
Gemini新語音對話功能Live定制版Gemini
谷歌稱,今年夏季將擴展 Gemini 的多模態功能,包括增加用語音進行深入雙向對話的能力,該功能被稱為 Live。通過 Gemini Live,用戶可以與 Gemini 交談,并可以從各種自然的聲音中選擇它回應的聲音。用戶甚至可以按照自己的節奏說話,或者在回答過程中打斷并澄清問題,就像在任何人類對話中一樣。