![]() ![]() 在大模型發布新版本往往高舉高打的當下,Google的一款秘密模型低調地引爆了社交網絡。 8月中旬,一個名為nano-banana的模型在 LMArena 平臺的「Battle」中被發現,盡管沒有任何官方開發者明確聲稱其歸屬,但很快,出于驚人的效果獲得了病毒式的關注。甚至大量用戶只為能被分配到該模型,而不斷地參與平臺模型盲測,相關圖片也在社交平臺上廣泛傳播。 直到北京時間8月27日凌晨,谷歌正式認領了該模型,正是新推出的Gemini 2.5 Flash Image,目前已經可以在Gemini app、Google AI studio、Google API進行使用。 在官方介紹中,核心技術亮點主要是以下三個: 顛覆性的一致性(Consistency):在連續生成或編輯中保持人物身份的穩定。 自然語言驅動的編輯:用戶僅通過對話式指令即可實現高精度圖像修改,無需復雜的專業工具。 閃電速度:圖像生成與編輯響應時間通常在1-2秒內,提供了接近實時的交互體驗。 我們也實測了一番,結果有驚艷,也有翻車,但確實在一致性上做到了斷層領先的水平。
還會做計算題? 一打開模型,我們就向AI下達了第一個指令:給我來七個Labubu,直接實現“手辦自由”。 直接上傳一張Labubu的商品圖,并復制修改了這段廣為流傳的手辦Prompt,生成結果如下: 乍一看效果非常好,Labubu的外形特征、搪膠材質都非常的逼真,甚至可以發朋友圈以假亂真。但仔細一看,數量卻不對,桌面上只有六小只,缺失了一個綠色的玩偶。 讓AI學會準確數數,依然是個問題。另外,由于我們最初的prompt里提到了“正版”,AI沒能輸出結果,修改措辭后才完成了生成。 接下來,我們又嘗試了多張圖片融合,據官方介紹能夠保持人物的一致性,目前最多可支持三張圖片合成,我們嘗試了一下讓甄嬛和安陵容來到現代都市,并且要求保持復雜的中國傳統首飾不變形。 AI也基本完成了任務,在甄嬛的身體發生轉動和變化的情況下,袖口的花紋和頭飾基本沒有變化,并為了完成Prompt中提到的couple(沒錯,我是甄嬛和安陵容CP粉),設計了一個在街頭親密自拍的動作。 如果覺得這個姿勢不夠滿意,甚至可以通過簡筆畫的方式,讓AI直接理解圖片示例,比如我們直接告訴AI,姿勢照著圖二修改。 盡管火柴人畫得很抽象,但AI還是完成了任務。 這并不是一個簡單的多圖融合。此前生成模型的多圖參考,是文本和圖像兩種跨模態輸入的對齊,對prompt格式有要求,例如A + B + C +運動,圖像主體盡量清晰,運動描述盡量直觀簡潔,還需要一定的抽卡概率。 而Gemini 2.5 Flash顯然對復雜的多模態輸入理解得更加準確。 這個多圖融合的featuer,在匿名測試階段就已經被電商用戶瘋狂夸贊了,我們接下來嘗試了商品的替換,實測結果卻輕微地翻車了。 將兩張圖片融合后的生成結果如下,盡管可以看到材質、樣式符合了原圖,但遺憾是個超大杯。 當我們試圖通過prompt修改,讓香水瓶恢復正常尺寸時,模型卻顯得始終執著于超大杯,修改后的圖片與原圖幾乎沒有差別。 雖然很想繼續修改,但大量用戶涌入后,由于“內部錯誤”,這個號稱能速生圖片的模型硬生生卡了幾分鐘,也無法完成更多任務了。 不過值得注意的是,官方提到得益于 Gemini 的先進推理,模型會有一定的理解和思維能力。盡管在符合現實邏輯上翻了車,但計算數學題卻成功了。 我們給出了一個小學腦力計算題,在很短的時間內,模型就計算出了正確答案。 此處值得一個掌聲。 “社區民選”的勝利 不僅模型的一致性效果很驚艷,此次模型出圈的路線也很有趣。 8月中旬,這款模型以完全匿名身份出現在LMArena的對戰模式中時,用戶需要在不知來源的情況下,僅憑生成效果進行盲測投票,短短兩周時間,憑借在“一致性”上的壓倒性優勢,“nano-banana”在盲測中持續勝出,迅速引起了全球AI核心用戶和開發者的注意。 討論從LMArena平臺迅速擴散至Reddit、X (Twitter)、Discord等社區。用戶自發進行極限測試、分享驚艷案例,并為其創造了“一致性之王”、“Photoshop殺手”等極具傳播力的標簽,甚至很多人會因為想要使用nano-banana模型,反復參與點評和測試,只為獲得一次隨機抽中banana的機會。 就在不少人還在猜測,模型是否會開源,什么時候正式發布的時候,谷歌工程師巧妙地在社交媒體發布'??'表情符號,將解謎游戲推向新高度。8月26日,在市場熱度和口碑達到峰值時,谷歌正式宣布'nano-banana'即為Gemini 2.5 Flash Image模型,并開始全面推送。 很難說,這一路徑并非谷歌有意為之。畢竟,早在8月初剛剛出圈,就有外媒報道,多位 AI 研究者和愛好者推測,nano-banana 可能是谷歌最新的圖像生成模型,也有觀察人士認為,可能來源于Qwen Image或來自各大實驗室尚未發布的其他模型。 當然,這種“神秘發布”模式并非谷歌首創,從去年開始,不少模型們都會選擇在LMArena上進行盲測,OpenAI此前也曾讓神秘模型'im-also-a-good-gpt2-chatbot'現身競技場,最終揭曉為GPT-4o測試版,預熱了產品發布。 一方面,模型們選擇LMArena,固然是因為在匿名的黑箱中,用戶的選擇完全是基于模型的實力,而排除了品牌的偏見和預期,為真實性能提供了純粹的認證。 另一方面,在AI競賽白熱化的背景下,大廠的模型發布往往會被置于一種“追趕者or顛覆者”的敘事框架內,從而被嚴格審視甚至審判。 相比起傳統的高舉高打的發布模式,匿名發布再到官方認領的策略,完成一次“民選”模型的病毒式傳播,既充分利用了社區自發傳播的勢能,又避免了過度炒作可能帶來的反噬效應,使其性能優勢在發布前就已成為“市場共識”。 這也為焦慮市場反饋的下一代模型們,提供了一種新的發布思路。 ![]() 關注睿獸分析視頻號 |
|