圖像生成AI新王誕生？一根香蕉如何改變世界

青檸與西柚 2025-08-31

展開全文

酷玩實驗室原創作品

P圖這門學問，不存在了，AI這次是真的要干掉Photoshop。

前幾天，一個名叫Nano Banana的神秘新模型，出現在了國外平臺LMArena上，LMArena就是業內有名的AI大模型競技場，用戶在這里輸入提示詞，會有數個不同的模型生成結果，讓你評價誰好、誰垃圾，評完之后LMArena才會告訴你，答案分別屬于哪個大模型。

結果是，短短幾天之內，用戶們就在盲選評價中，給Nano Banana打出了1360的高分，位列圖像編輯AI的第一名，力壓GPT、千問等知名大模型，用戶們的心情，大概是這樣的。

所以，Nano Banana到底有多猛？我們普通人又能拿它做什么？

01 Nano Banana 一致性的王

用這個大模型執行圖像編輯任務時，用戶最直觀的感受就是，一致性無敵。

AI的一個常見任務，以圖生圖，給大模型們喂同樣的參考，輸入一樣的提示詞，讓它們更換圖中的背景，或者人物動作、服裝。目前常用的幾個老牌選手，在生成時都有很大的問題，新圖明顯無法與參考圖中的人物保持一致，要么變了臉型，要么變了膚色或者胖瘦，姿勢和動作也有細微變化。因為這種一致性問題，你很難做到控制變量，想變動一點，其余的部分全變了，根本沒法用。

就比方說，用自然語言描述，要求AI給下面這張圖替換背景，“換到室外的泳池邊，整體構圖和人物姿勢動作形象都保持不變，圖片的風格維持現狀。”

GPT生成的結果是這樣的，照片的風格大變，人物樣貌有很大變化，手里夾的煙也消失了，甚至還多長了根手指，基本上可以判定為一眼AI。

這個則是豆包的生成結果，看得出來，它在努力保持人物的一致性，盡量做到PS摳圖的效果，但豆包生成的背景有點太糊了，人物像站在一面油畫前。

再看我們的主角Nano Banana，不僅把人物原樣照搬了下來，細節無一丟失，背景的色彩和清晰度也比較合適，可以說是非常接近老師傅手摳的結果了，而且它非常聰明地添加了，連原圖都沒有的煙霧效果，顯然Nano Banana是覺得，四個煙民站在這，空氣不可能清新，煙霧繚繞才合理。

一個實戰例子可能說明不了什么，咱們再來看幾個。這是一位國外網友用Nano Banana編輯的照片，他給出的指令是，“把眼鏡替換成黑色太陽鏡，然后拿一杯健康飲料”，Nano Banana給出了右邊的圖，不僅把臉型、表情、膚色都保留了下來，墻壁上小鼓包也還在，它還認真還原了墨鏡的半透明效果，以及鏡片上的反光，非常自然。

作為對比，完全一樣的參考和Prompt輸入GPT，結果是這樣的，莫名其妙給人物加了一層柔光濾鏡，還瘋狂磨皮，有種美顏拉到最大的感覺，而且人像的邊緣有條顯眼的黑線，像是摳出來放到墻壁前的樣子。

豆包的結果好一些，人物是還原了，但眼鏡有點假，很明顯沒有跟原來的場景、風格保持一致，融合度差點意思。

換句話說，Nano Banana 就可以做到，只在你想改的地方精準下刀，新生成的圖像中，人物還能保持原來的相貌體型，其它物品保持不變，并且整體畫質和風格跟原圖同步，就好像找了PS高手幫你。

這么復雜的操作，用戶卻只需要用簡單的自然語言下令，等于學會了打字P圖，想給照片換個背景，抹掉什么閑雜人等，或者把某個人加進來，就一句話的事情而已，完全用不著費力學什么蒙版、套索。

于是，一大群人跑去LMArena上瘋玩Nano Banana，開啟了用嘴P圖的生涯，這位網友要求Nano Banana，把自己以前在莫斯科拍的新年紀念照，背景換成紐約，年份換成2025，成品效果幾乎完美。

也有人叫Nano Banana給自己換裝，從沙灘褲換到西裝，生成結果很還原現實中的體型，衣服上的光影也得到了保留，還生成了很多褶皺，足以以假亂真。

給照片換頭也是毫無壓力，尺寸和神情恰到好處，跟整體風格融得也比較好。

用Nano Banana，你甚至可以看看你家貓咪脫光衣服之后的樣子。

接觸AI比較多的朋友一定知道，生成一致性算是老大難問題了，模型看參考圖跟我們人不一樣，它要同時關注角色、背景、風格等多個元素，很容易在這個過程中遺失關鍵特征，它也難以區分角色的身份特征和圖像的風格，再加上AI每次生成都是獨立的，每次都存在隨機，很難做到一致。對于高手來說，可以通過輸入極其復雜的Prompt，來部分解決一致性問題，但這種魔法咒語的學習難度，可能并不比學習PS要低，對普通人來說還是有門檻的。

如果同樣輸入普通人能掌握的大白話，Nano Banana的表現明顯比其它主流大模型高了幾個段位，顯然是在這些技術難題上取得了突破，至于具體采用什么邏輯，就不清楚了。

現在已經知道的是，Nano Banana的身世。剛開始的時候Nano Banana神秘兮兮的，也不知道是誰家搞出來的，后面用戶反響不錯，谷歌就跳出來認領了，承認了它是測試中的Gemini-2.5的繪圖大模型。

現在谷歌已經開始全面推送，可以直接在官網上使用，不必再跑到LMArena上瘋狂搖號，這進一步推高了Nano Banana的熱度。

02 有常識的AI

隨著更多用戶能夠穩定地調用Nano Banana，大家很快發現，這玩意的恐怖之處不僅僅在一致性，它在保持一致的同時還有強大的想象力。

比如說，變表情，你讓AI改變某張照片中的人物的表情，大多數AI沒有辦法正確腦補這張臉的變化，會直接把整個臉都扭曲，Nano Banana就可以分析你的面部特征，生成更加自然的結果，跟真人照片放在一起，都難以分辨到底誰才是AI。

來做個測試，請看下圖中的王の笑容，找出哪個是Nano Banana修改后的假王。

公布答案，1號和4號為編輯表情后的結果，有多少朋友猜對？

更牛的是，Nano Banana還有憑借合理想象多角度生成圖像的能力，你給它喂一張正臉圖，要求它把人物的臉轉過來，Nano Banana可以在沒有其它參考的情況下，憑借輪廓合理想象側臉的模樣，并且看上去符合常識。

當然，也可以反過來，用側臉去生成正臉，也是絲毫沒有突兀感。

Nano Banana還能根據固定角度的參考，想象變換機位之后的新角度。比如給它一張平視圖，要求它以此為基礎生成俯視圖、仰視圖，Nano Banana不僅可以識別人物和物體特征，用靠譜的空間想象力，腦補出俯視的樣子，對于一些平視圖中沒有完全露出的物件，它也可以用常識進行補全，比如我們前面說的聚眾抽煙圖，參考圖里只露出一盆花，它知道在俯視想象中給花下面補個茶幾，以讓花盆達到正確的高度，它甚至還分析了人物在干嘛，在添加物件的時候擱了幾個煙灰缸。

非要挑的話，在不起眼的角落里，Nano Banana還是犯了個經典的邊界不清錯誤，證明自己依然是個AI，不然大家都要害怕智械覺醒了。

按照谷歌的說法，Nano Banana在這方面強，是因為它并非一個單純的圖像編輯模型，而是融合了Gemini 的世界知識，所以它有常識和強大的邏輯推理能力，能夠理解文本、圖像所代表的含義，也懂得現實的狀況和規則，得到的結果自然更符合用戶的預期。

這種基于現實邏輯的想象，是傳統修圖軟件無論如何都做不到的，也是很多AI的弱點。

再加上超強的一致性，最終得到的結果就是，開局一張圖，之后隨心所欲輸出自己想要的畫面，想保留什么元素，想改變什么，全由你來決定。

用老外的話來說，Google just killed Photoshop.

03 全民創作，啟動！

當網友們見識到了Nano Banana的實力，就開始瘋玩了。

首先整活黨得到了極大的加強，各種以假亂真的Nano Banana 惡搞圖滿天飛。現在X上面人均傍大腕，跟將軍親切擁抱的，跟登子握手合影的，還有夜訪普京的，個個背景過硬。

作為愛恨兩極分化的總統，川普自然也逃不過惡搞的大手，已經被Nano Banana送去主演《芭比》了，你別說，粉粉嫩嫩的還挺合適他。

各個科技巨頭的頭頭們，也集體被搞抽象，讓奧特曼去表演體操，讓馬斯克戴金鏈子、穿一身西海岸該溜子裝，讓桑德爾這位印裔CEO，把谷歌辦公室搬到破舊的印度農村房。

明星們現在應該也在瑟瑟發抖，畢竟霉霉剛發的訂婚照，已經被Nano Banana給P成了瑟曦同款短發。

跟巴薩和可樂斗了半輩子的C羅，也在Nano Banana和網友的幫助下，實現了世紀大和解。

還有好奇心爆表的車手，嘗試利用Nano Banana脫掉HKdoll姐姐的口罩，看完生成結果之后，應該是心滿意足地去拿衛生紙了。

好玩是一方面，那些想把AI當成生產力的人，也發現了新大陸。

Nano Banana可以把你提供的素材圖，按照要求跟人物搭配成圖，穿什么衣服，拿什么手機，坐什么汽車，擺什么姿勢，都隨你定，它熔煉素材還熔得特好，身材不走樣，比例不失真，并且能搞出高級感。

過去也有一些大模型推出類似的AI換裝、AI穿搭功能，但Nano Banana能夠使用的素材數量要多得多，在官方演示中就有13個不同的素材被安排進去，X上還有用戶反饋，如果你在一張圖里放幾個素材，可以塞更多元素，他最高用了18個。

而且，對于一些語言難以仔細描述的動作、姿勢，你也可以通過上傳示意圖來跟Nano Banana解釋，畫成火柴人那么抽象，它都照樣能理解。

這不僅省去了修圖的功夫，還省掉了找道具拍攝的成本，對于做電商、搞廣告設計來說堪稱神器，花小錢買點Token，十幾秒就能做完一天的工作。

另一個用法是突破次元壁，你可以把各種手稿、動漫乃至真人喂給Nano Banana，讓它幫你做成手辦的樣子。

既有栩栩如生的動態和表情，又還原了塑料和漆面特殊的光澤、質感，確實看起來像手辦。

這個用法已經成了小紅書的流量密碼，會引來一堆人在評論區求幫忙做同款，輕松起號。

對于搞室內設計或者想裝修的人，還有賣家具的人，Nano Banana也是絕對的神器，谷歌基于這個大模型定制了一個官方小工具，讓Nano Banana拿毛坯照片生成裝修效果圖，拿空房生成放滿家具的樣子。

你甚至都不用描述，小工具允許你直接把家具素材圖，拖到指定位置，就可以生成對應的效果，省下了想提示詞的功夫。

不僅如此，高手們還搗鼓出了無數的邪修玩法，比如說你可以給一張背景虛化掉的照片中，隨便畫一圈，把圈里面模糊的人或者物提取出來，要求Nano Banana進行合理想象，生成這個人物的高清大圖，感覺刑警隊會很愛用。

你還可以利用Nano Banana的世界知識，把衛星圖轉換為風景圖，用戶只需要畫個箭頭號，告訴它這是攝影師的視角，Nano Banana就會開始推理這是哪，你在什么位置，然后生成這里所能看到的畫面，一些平時需要付費購買的城市風景照，就可以免費獲取了。再搭配上其它的圖生視頻AI模型，讓畫面動起來，那些高價的空鏡素材，沒花一分錢就到手了。

04 真假難辨

可以說，Nano Banana的誕生，代表著圖像編輯AI達到了一個新的高度，已經可以有效解決人類“手跟不上腦”的問題，你想象，然后說出來，就可以獲得圖像。

對于普通人來說，修圖做圖，不再是一門高深的技術，人人都可以低成本展示自己的靈感，可能在今后的時代，創意才是最貴的。

當然，硬幣也有另外一面，但AI生成的水平，逐漸逼近“以假亂真”，它被用來作惡的能力也越強。

在Nano Banana尚未出現的時候，各種AI圖就已經能夠騙到識別能力不強的人，騙過一些檢測系統。有人拿AI做出物品損壞的樣子騙商家賠款，天天薅羊毛，有人用AI生成門頭來掩蓋幽靈外賣店，假裝自己很正規。

更不要說，每天還有各種各樣的AI假新聞圖在網上到處飛，瘋狂制造謠言……

這種低水平的AI造假，目前我們都無法完全攔截，也不是所有人都能識破，當Nano Banana等新一代AI普及，恐怕情況會變得更加嚴重。

搞傳銷的，再也犯不著去4S蹭瑪莎拉蒂，或者砸錢請奧巴馬來合影，他們坐在電腦前就可以隨便偽造出跟大佬握手的圖，騙你入局。賣假貨的，也犯不著請什么演員來做違背祖宗的決定，隨便AI生成一下，便可以讓明星大腕一臉真誠地手持自己的產品，免費做代言。

又或者說，詐騙犯只要搞到一張你的照片，就能制造出無數你挨打被虐的圖，讓你爹媽以為你被綁到緬北去了，然后掏空家底給你交贖金。

幾十年前，整個社會都是以 '眼見為實' 的認知體系為基礎，照片就是鐵證，視頻就是定論，因為那時候的人們知道，這些東西是難以修改和偽造的。PS的出現，第一次動搖了這個認知體系，因為偽造成本變得太低，稍微懂點技術的人都可以搞，但凡看到照片，我們腦子里都得冒出一句：“是原圖嗎？”

現如今，門檻更低、能力更強的圖片編輯AI，又準備革掉PS的命，以后會發生什么呢？

大腦的想象力，是放飛了，但我們的眼睛，好像也不值得信任。

酷玩實驗室整理編輯

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。