《科創板日報》9月1日訊 一張三維建模圖、一個手辦模型、一個印有“Nano-banana”字樣的包裝盒……在剛剛過去的周末,朋友圈突然涌現出大量雷同的“3D打印手辦”圖片。這些手辦或是明星角色,或是家中寵物,種類繁多令人眼花繚亂。此時此刻,在某社交平臺上以“手辦”為關鍵詞進行搜索,同樣會看到許多相似的內容。

與此形成呼應的是,今日早盤,3D打印概念震蕩拉升。截至發稿,海正生材、長江材料等多股漲停,金橙子、思看科技等紛紛上漲。

然而,這場3D打印熱潮背后的真正主角,卻是谷歌推出的一款代號“納米香蕉”(Nano-banana)的圖像生成與編輯模型。前文提到的“3D打印手辦”圖片,便是Nano-banana的“杰作”。簡單來說,通過上傳人物或動物圖片素材,再輸入特定提示詞和指令,該模型便能夠將人像轉化為同款“手辦”。不過與真正手辦不同的是,Nano-banana生成的“手辦”僅存在于圖片之中。
據悉,這款模型正式名稱為Gemini 2.5 Flash Image,自8月26日正式上線后,其憑借圖像編輯實測中的驚艷效果迅速出圈。在海外知名AI排行平臺LMArena的最新榜單中,Nano-banana以1362的分數位列第一,大幅領先于第二名flux(1191)和GPT(1170)。

除了“做手辦”外,Nano-banana還有許多使用場景,比如能夠將用戶提供的多個素材圖,按照要求進行融合。據3D數字藝術家特拉維斯·戴維斯測試,該模型能夠同時駕馭多達13個圖片素材,并將他們全部融為一張圖。

在谷歌Gemini官方轉發的使用案例中,用戶只需在地圖上畫出“箭頭”,Nano-banana便會利用其世界知識推理具體位置與畫面,從而將衛星圖轉換為風景圖。此外,按照官方說法,該模型同時具備圖片生成與修改、局部重繪、風格遷移等圖片編輯能力。

實現上述效果的關鍵在于Nano-banana以下核心能力:跨圖一致性、多圖融合、對話式/指令式精細編輯、以及“借助Gemini世界知識”帶來的更強常識/語義理解。目前,用戶可通過Gemini App、API等方式訪問Nano-banana,其API定價為每百萬輸出token30美元。具體而言,生成單張圖片約消耗1290個輸出token,折算成本約0.039美元。
值得一提的是,截至目前諸多海外平臺如Adobe、WPP、Figma等已在真實平臺迅速集成Nano-banana并驗證生產力提升,同時給出了高度評價。華福證券表示,谷歌Nano-banana出圈意味著多模態模型向更高能力突破,同時看好多模態領域的爆發。
現如今,AI圖像模型已成為科技巨頭的核心競爭領域。3月26日,OpenAI推出基于GPT-4o模型的圖像生成功能——Images in ChatGPT,標志著ChatGPT正式實現從單一語言模型向全模態智能體的跨越。8月23日,Meta宣布將與Midjourney合作開發圖像和視頻生成技術。
華泰證券認為,原生多模態模型架構得到業界認可,OpenAI和Google的原生多模態模型已經在性能、延時、部署上展現出了優勢。整體而言,多模態為主的產品商業化快于文本產品,從大模型到多模態已是商業化的必由之路,多模態大模型和應用發展的奇點將至。
就投資層面來看,該機構指出,多模態有望在算力和應用兩方面帶來相關投資機會。算力側,供給端原生多模態模型需要比非原生模型更多的算力,需求端視頻的推理算力需求遠大于文字,視頻Agent的落地進一步催生推理算力需求。應用側,供給端國內的視頻生成模型領先,需求端廣告、零售、創作、教育等領域均有AI化需求。