沒有發布會，沒有CEO站臺，谷歌用一根“香蕉”贏得了歡呼

天承辦公室 2025-08-31

展開全文

來源丨硅星人（ID：Si-Planet）

作者丨黃小藝

圖源丨Midjourney

在大模型發布新版本往往高舉高打的當下，Google的一款秘密模型低調地引爆了社交網絡。

8月中旬，一個名為nano-banana的模型在 LMArena 平臺的「Battle」中被發現，盡管沒有任何官方開發者明確聲稱其歸屬，但很快，出于驚人的效果獲得了病毒式的關注。甚至大量用戶只為能被分配到該模型，而不斷地參與平臺模型盲測，相關圖片也在社交平臺上廣泛傳播。

直到北京時間8月27日凌晨，谷歌正式認領了該模型，正是新推出的Gemini 2.5 Flash Image，目前已經可以在Gemini app、Google AI studio、Google API進行使用。

在官方介紹中，核心技術亮點主要是以下三個：

顛覆性的一致性（Consistency）：在連續生成或編輯中保持人物身份的穩定。

自然語言驅動的編輯：用戶僅通過對話式指令即可實現高精度圖像修改，無需復雜的專業工具。

閃電速度：圖像生成與編輯響應時間通常在1-2秒內，提供了接近實時的交互體驗。

我們也實測了一番，結果有驚艷，也有翻車，但確實在一致性上做到了斷層領先的水平。

模型實測：能幫我實現Labubu自由

還會做計算題？

一打開模型，我們就向AI下達了第一個指令：給我來七個Labubu，直接實現“手辦自由”。

直接上傳一張Labubu的商品圖，并復制修改了這段廣為流傳的手辦Prompt，生成結果如下：

乍一看效果非常好，Labubu的外形特征、搪膠材質都非常的逼真，甚至可以發朋友圈以假亂真。但仔細一看，數量卻不對，桌面上只有六小只，缺失了一個綠色的玩偶。

讓AI學會準確數數，依然是個問題。另外，由于我們最初的prompt里提到了“正版”，AI沒能輸出結果，修改措辭后才完成了生成。

接下來，我們又嘗試了多張圖片融合，據官方介紹能夠保持人物的一致性，目前最多可支持三張圖片合成，我們嘗試了一下讓甄嬛和安陵容來到現代都市，并且要求保持復雜的中國傳統首飾不變形。

AI也基本完成了任務，在甄嬛的身體發生轉動和變化的情況下，袖口的花紋和頭飾基本沒有變化，并為了完成Prompt中提到的couple（沒錯，我是甄嬛和安陵容CP粉），設計了一個在街頭親密自拍的動作。

如果覺得這個姿勢不夠滿意，甚至可以通過簡筆畫的方式，讓AI直接理解圖片示例，比如我們直接告訴AI，姿勢照著圖二修改。

盡管火柴人畫得很抽象，但AI還是完成了任務。

這并不是一個簡單的多圖融合。此前生成模型的多圖參考，是文本和圖像兩種跨模態輸入的對齊，對prompt格式有要求，例如A + B + C +運動，圖像主體盡量清晰，運動描述盡量直觀簡潔，還需要一定的抽卡概率。

而Gemini 2.5 Flash顯然對復雜的多模態輸入理解得更加準確。

這個多圖融合的featuer，在匿名測試階段就已經被電商用戶瘋狂夸贊了，我們接下來嘗試了商品的替換，實測結果卻輕微地翻車了。

將兩張圖片融合后的生成結果如下，盡管可以看到材質、樣式符合了原圖，但遺憾是個超大杯。

當我們試圖通過prompt修改，讓香水瓶恢復正常尺寸時，模型卻顯得始終執著于超大杯，修改后的圖片與原圖幾乎沒有差別。

雖然很想繼續修改，但大量用戶涌入后，由于“內部錯誤”，這個號稱能速生圖片的模型硬生生卡了幾分鐘，也無法完成更多任務了。

不過值得注意的是，官方提到得益于 Gemini 的先進推理，模型會有一定的理解和思維能力。盡管在符合現實邏輯上翻了車，但計算數學題卻成功了。

我們給出了一個小學腦力計算題，在很短的時間內，模型就計算出了正確答案。

此處值得一個掌聲。

“社區民選”的勝利

不僅模型的一致性效果很驚艷，此次模型出圈的路線也很有趣。

8月中旬，這款模型以完全匿名身份出現在LMArena的對戰模式中時，用戶需要在不知來源的情況下，僅憑生成效果進行盲測投票，短短兩周時間，憑借在“一致性”上的壓倒性優勢，“nano-banana”在盲測中持續勝出，迅速引起了全球AI核心用戶和開發者的注意。

討論從LMArena平臺迅速擴散至Reddit、X (Twitter)、Discord等社區。用戶自發進行極限測試、分享驚艷案例，并為其創造了“一致性之王”、“Photoshop殺手”等極具傳播力的標簽，甚至很多人會因為想要使用nano-banana模型，反復參與點評和測試，只為獲得一次隨機抽中banana的機會。

就在不少人還在猜測，模型是否會開源，什么時候正式發布的時候，谷歌工程師巧妙地在社交媒體發布'??'表情符號，將解謎游戲推向新高度。8月26日，在市場熱度和口碑達到峰值時，谷歌正式宣布'nano-banana'即為Gemini 2.5 Flash Image模型，并開始全面推送。

很難說，這一路徑并非谷歌有意為之。畢竟，早在8月初剛剛出圈，就有外媒報道，多位 AI 研究者和愛好者推測，nano-banana 可能是谷歌最新的圖像生成模型，也有觀察人士認為，可能來源于Qwen Image或來自各大實驗室尚未發布的其他模型。

當然，這種“神秘發布”模式并非谷歌首創，從去年開始，不少模型們都會選擇在LMArena上進行盲測，OpenAI此前也曾讓神秘模型'im-also-a-good-gpt2-chatbot'現身競技場，最終揭曉為GPT-4o測試版，預熱了產品發布。

一方面，模型們選擇LMArena，固然是因為在匿名的黑箱中，用戶的選擇完全是基于模型的實力，而排除了品牌的偏見和預期，為真實性能提供了純粹的認證。

另一方面，在AI競賽白熱化的背景下，大廠的模型發布往往會被置于一種“追趕者or顛覆者”的敘事框架內，從而被嚴格審視甚至審判。

相比起傳統的高舉高打的發布模式，匿名發布再到官方認領的策略，完成一次“民選”模型的病毒式傳播，既充分利用了社區自發傳播的勢能，又避免了過度炒作可能帶來的反噬效應，使其性能優勢在發布前就已成為“市場共識”。

這也為焦慮市場反饋的下一代模型們，提供了一種新的發布思路。

關注睿獸分析視頻號

擁抱AI新時代??