盡管亮相時(shí)被OpenAI壓了一頭,但谷歌一直在悄悄迭代Gemini大模型,和OpenAI最新大模型GPT-4o的差距已經(jīng)顯著縮小。最新測(cè)試結(jié)果顯示,Gemini 1.5 Pro/Advanced在綜合測(cè)試中排名第 2,逼近GPT-4o,輕量版Gemini 1.5 flash排名第9,超越 Llama-3-70b,接近GPT-4。
相比4月份的版本,免費(fèi)的Gemini Pro和Flash的能力有明顯加強(qiáng)。且上下文長(zhǎng)度可以達(dá)到100萬(wàn)token,遠(yuǎn)遠(yuǎn)超出GPT-4的12.8萬(wàn)token。
Gemini的中文能力更是驚艷,在中文測(cè)試中,Gemini Pro和Advanced雙雙超越GPT-4o,分別排在第一、第二位。
此外,在Hard Prompts測(cè)試中,Gemini同樣名列前茅。在Hard Prompts測(cè)試中,大模型需要面對(duì)那些更具挑戰(zhàn)性的問題,Gemini 1.5 Pro在這一測(cè)試中排名第二,僅次于GPT-4o.
從大模型置信區(qū)間(Confidence Intervals)來看,Gemini的測(cè)試結(jié)果也名列前茅。