盡管亮相時被OpenAI壓了一頭,但谷歌一直在悄悄迭代Gemini大模型,和OpenAI最新大模型GPT-4o的差距已經顯著縮小。最新測試結果顯示,Gemini 1.5 Pro/Advanced在綜合測試中排名第 2,逼近GPT-4o,輕量版Gemini 1.5 flash排名第9,超越 Llama-3-70b,接近GPT-4。
相比4月份的版本,Gemini Pro和Flash的能力有明顯加強。且上下文長度可以達到100萬token,遠遠超出GPT-4的12.8萬token。
Gemini的中文能力更是驚艷,在中文測試中,Gemini Pro和Advanced雙雙超越GPT-4o,分別排在第一、第二位。
此外,在Hard Prompts測試中,Gemini同樣名列前茅。在Hard Prompts測試中,大模型需要面對那些更具挑戰性的問題,Gemini 1.5 Pro在這一測試中排名第二,僅次于GPT-4o.
從大模型置信區間(Confidence Intervals)來看,Gemini的測試結果也名列前茅。