![]() P圖這門學問,不存在了,AI這次是真的要干掉Photoshop。 前幾天,一個名叫Nano Banana的神秘新模型,出現在了國外平臺LMArena上,LMArena就是業內有名的AI大模型競技場,用戶在這里輸入提示詞,會有數個不同的模型生成結果,讓你評價誰好、誰垃圾,評完之后LMArena才會告訴你,答案分別屬于哪個大模型。 ![]() 結果是,短短幾天之內,用戶們就在盲選評價中,給Nano Banana打出了1360的高分,位列圖像編輯AI的第一名,力壓GPT、千問等知名大模型,用戶們的心情,大概是這樣的。 ![]() 所以,Nano Banana到底有多猛?我們普通人又能拿它做什么? 01 Nano Banana 一致性的王 用這個大模型執行圖像編輯任務時,用戶最直觀的感受就是,一致性無敵。 AI的一個常見任務,以圖生圖,給大模型們喂同樣的參考,輸入一樣的提示詞,讓它們更換圖中的背景,或者人物動作、服裝。目前常用的幾個老牌選手,在生成時都有很大的問題,新圖明顯無法與參考圖中的人物保持一致,要么變了臉型,要么變了膚色或者胖瘦,姿勢和動作也有細微變化。因為這種一致性問題,你很難做到控制變量,想變動一點,其余的部分全變了,根本沒法用。 就比方說,用自然語言描述,要求AI給下面這張圖替換背景,“換到室外的泳池邊,整體構圖和人物姿勢動作形象都保持不變,圖片的風格維持現狀。” ![]() GPT生成的結果是這樣的,照片的風格大變,人物樣貌有很大變化,手里夾的煙也消失了,甚至還多長了根手指,基本上可以判定為一眼AI。 ![]() 這個則是豆包的生成結果,看得出來,它在努力保持人物的一致性,盡量做到PS摳圖的效果,但豆包生成的背景有點太糊了,人物像站在一面油畫前。 ![]() 再看我們的主角Nano Banana,不僅把人物原樣照搬了下來,細節無一丟失,背景的色彩和清晰度也比較合適,可以說是非常接近老師傅手摳的結果了,而且它非常聰明地添加了,連原圖都沒有的煙霧效果,顯然Nano Banana是覺得,四個煙民站在這,空氣不可能清新,煙霧繚繞才合理。 ![]() 一個實戰例子可能說明不了什么,咱們再來看幾個。這是一位國外網友用Nano Banana編輯的照片,他給出的指令是,“把眼鏡替換成黑色太陽鏡,然后拿一杯健康飲料”,Nano Banana給出了右邊的圖,不僅把臉型、表情、膚色都保留了下來,墻壁上小鼓包也還在,它還認真還原了墨鏡的半透明效果,以及鏡片上的反光,非常自然。 ![]() 作為對比,完全一樣的參考和Prompt輸入GPT,結果是這樣的,莫名其妙給人物加了一層柔光濾鏡 ,還瘋狂磨皮,有種美顏拉到最大的感覺,而且人像的邊緣有條顯眼的黑線,像是摳出來放到墻壁前的樣子。 ![]() 豆包的結果好一些,人物是還原了,但眼鏡有點假,很明顯沒有跟原來的場景、風格保持一致,融合度差點意思。 ![]() 換句話說,Nano Banana 就可以做到,只在你想改的地方精準下刀,新生成的圖像中,人物還能保持原來的相貌體型,其它物品保持不變,并且整體畫質和風格跟原圖同步,就好像找了PS高手幫你。 這么復雜的操作,用戶卻只需要用簡單的自然語言下令,等于學會了打字P圖,想給照片換個背景,抹掉什么閑雜人等,或者把某個人加進來,就一句話的事情而已,完全用不著費力學什么蒙版、套索。 于是,一大群人跑去LMArena上瘋玩Nano Banana,開啟了用嘴P圖的生涯,這位網友要求Nano Banana,把自己以前在莫斯科拍的新年紀念照,背景換成紐約,年份換成2025,成品效果幾乎完美。 ![]() 也有人叫Nano Banana給自己換裝,從沙灘褲換到西裝,生成結果很還原現實中的體型,衣服上的光影也得到了保留,還生成了很多褶皺,足以以假亂真。 ![]() 給照片換頭也是毫無壓力,尺寸和神情恰到好處,跟整體風格融得也比較好。 ![]() 用Nano Banana,你甚至可以看看你家貓咪脫光衣服之后的樣子。 ![]() 接觸AI比較多的朋友一定知道,生成一致性算是老大難問題了,模型看參考圖跟我們人不一樣,它要同時關注角色、背景、風格等多個元素,很容易在這個過程中遺失關鍵特征,它也難以區分角色的身份特征和圖像的風格,再加上AI每次生成都是獨立的,每次都存在隨機,很難做到一致。對于高手來說,可以通過輸入極其復雜的Prompt,來部分解決一致性問題,但這種魔法咒語的學習難度,可能并不比學習PS要低,對普通人來說還是有門檻的。 如果同樣輸入普通人能掌握的大白話,Nano Banana的表現明顯比其它主流大模型高了幾個段位,顯然是在這些技術難題上取得了突破,至于具體采用什么邏輯,就不清楚了。 現在已經知道的是,Nano Banana的身世。剛開始的時候Nano Banana神秘兮兮的,也不知道是誰家搞出來的,后面用戶反響不錯,谷歌就跳出來認領了,承認了它是測試中的Gemini-2.5的繪圖大模型。 ![]() 現在谷歌已經開始全面推送,可以直接在官網上使用,不必再跑到LMArena上瘋狂搖號,這進一步推高了Nano Banana的熱度。 02 有常識的AI 隨著更多用戶能夠穩定地調用Nano Banana,大家很快發現,這玩意的恐怖之處不僅僅在一致性,它在保持一致的同時還有強大的想象力。 比如說,變表情,你讓AI改變某張照片中的人物的表情,大多數AI沒有辦法正確腦補這張臉的變化,會直接把整個臉都扭曲,Nano Banana就可以分析你的面部特征,生成更加自然的結果,跟真人照片放在一起,都難以分辨到底誰才是AI。 來做個測試,請看下圖中的王の笑容,找出哪個是Nano Banana修改后的假王。 ![]() 公布答案,1號和4號為編輯表情后的結果,有多少朋友猜對? 更牛的是,Nano Banana還有憑借合理想象多角度生成圖像的能力,你給它喂一張正臉圖,要求它把人物的臉轉過來,Nano Banana可以在沒有其它參考的情況下,憑借輪廓合理想象側臉的模樣,并且看上去符合常識。 ![]() 當然,也可以反過來,用側臉去生成正臉,也是絲毫沒有突兀感。 ![]() Nano Banana還能根據固定角度的參考,想象變換機位之后的新角度。比如給它一張平視圖,要求它以此為基礎生成俯視圖、仰視圖,Nano Banana不僅可以識別人物和物體特征,用靠譜的空間想象力,腦補出俯視的樣子,對于一些平視圖中沒有完全露出的物件,它也可以用常識進行補全,比如我們前面說的聚眾抽煙圖,參考圖里只露出一盆花,它知道在俯視想象中給花下面補個茶幾,以讓花盆達到正確的高度,它甚至還分析了人物在干嘛,在添加物件的時候擱了幾個煙灰缸。 ![]() ![]() 非要挑的話,在不起眼的角落里,Nano Banana還是犯了個經典的邊界不清錯誤,證明自己依然是個AI,不然大家都要害怕智械覺醒了。 ![]() 按照谷歌的說法,Nano Banana在這方面強,是因為它并非一個單純的圖像編輯模型,而是融合了Gemini 的世界知識,所以它有常識和強大的邏輯推理能力,能夠理解文本、圖像所代表的含義, 也懂得現實的狀況和規則,得到的結果自然更符合用戶的預期。 這種基于現實邏輯的想象,是傳統修圖軟件無論如何都做不到的,也是很多AI的弱點。 再加上超強的一致性,最終得到的結果就是,開局一張圖,之后隨心所欲輸出自己想要的畫面,想保留什么元素,想改變什么,全由你來決定。 ![]() 用老外的話來說,Google just killed Photoshop. 03 全民創作,啟動! 當網友們見識到了Nano Banana的實力,就開始瘋玩了。 首先整活黨得到了極大的加強,各種以假亂真的Nano Banana 惡搞圖滿天飛。現在X上面人均傍大腕,跟將軍親切擁抱的,跟登子握手合影的,還有夜訪普京的,個個背景過硬。 ![]() 作為愛恨兩極分化的總統,川普自然也逃不過惡搞的大手,已經被Nano Banana送去主演《芭比》了,你別說,粉粉嫩嫩的還挺合適他。 ![]() 各個科技巨頭的頭頭們,也集體被搞抽象,讓奧特曼去表演體操,讓馬斯克戴金鏈子、穿一身西海岸該溜子裝,讓桑德爾這位印裔CEO,把谷歌辦公室搬到破舊的印度農村房。 ![]() 明星們現在應該也在瑟瑟發抖,畢竟霉霉剛發的訂婚照,已經被Nano Banana給P成了瑟曦同款短發。 ![]() 跟巴薩和可樂斗了半輩子的C羅,也在Nano Banana和網友的幫助下,實現了世紀大和解。 ![]() 還有好奇心爆表的車手,嘗試利用Nano Banana脫掉HKdoll姐姐的口罩,看完生成結果之后,應該是心滿意足地去拿衛生紙了。 ![]() ![]() 好玩是一方面,那些想把AI當成生產力的人,也發現了新大陸。 Nano Banana可以把你提供的素材圖,按照要求跟人物搭配成圖,穿什么衣服,拿什么手機,坐什么汽車,擺什么姿勢,都隨你定,它熔煉素材還熔得特好,身材不走樣,比例不失真,并且能搞出高級感。 ![]() 過去也有一些大模型推出類似的AI換裝、AI穿搭功能,但Nano Banana能夠使用的素材數量要多得多,在官方演示中就有13個不同的素材被安排進去,X上還有用戶反饋,如果你在一張圖里放幾個素材,可以塞更多元素,他最高用了18個。 ![]() 而且,對于一些語言難以仔細描述的動作、姿勢,你也可以通過上傳示意圖來跟Nano Banana解釋,畫成火柴人那么抽象,它都照樣能理解。 ![]() 這不僅省去了修圖的功夫,還省掉了找道具拍攝的成本,對于做電商、搞廣告設計來說堪稱神器,花小錢買點Token,十幾秒就能做完一天的工作。 另一個用法是突破次元壁,你可以把各種手稿、動漫乃至真人喂給Nano Banana,讓它幫你做成手辦的樣子。 ![]() 既有栩栩如生的動態和表情,又還原了塑料和漆面特殊的光澤、質感,確實看起來像手辦。 ![]() 這個用法已經成了小紅書的流量密碼,會引來一堆人在評論區求幫忙做同款,輕松起號。 ![]() 對于搞室內設計或者想裝修的人,還有賣家具的人,Nano Banana也是絕對的神器,谷歌基于這個大模型定制了一個官方小工具,讓Nano Banana拿毛坯照片生成裝修效果圖,拿空房生成放滿家具的樣子。 你甚至都不用描述,小工具允許你直接把家具素材圖,拖到指定位置,就可以生成對應的效果,省下了想提示詞的功夫。 ![]() 不僅如此,高手們還搗鼓出了無數的邪修玩法,比如說你可以給一張背景虛化掉的照片中,隨便畫一圈,把圈里面模糊的人或者物提取出來,要求Nano Banana進行合理想象,生成這個人物的高清大圖,感覺刑警隊會很愛用。 ![]() 你還可以利用Nano Banana的世界知識,把衛星圖轉換為風景圖,用戶只需要畫個箭頭號,告訴它這是攝影師的視角,Nano Banana就會開始推理這是哪,你在什么位置,然后生成這里所能看到的畫面,一些平時需要付費購買的城市風景照,就可以免費獲取了。再搭配上其它的圖生視頻AI模型,讓畫面動起來,那些高價的空鏡素材,沒花一分錢就到手了。 ![]() 04 真假難辨 可以說,Nano Banana的誕生,代表著圖像編輯AI達到了一個新的高度,已經可以有效解決人類“手跟不上腦”的問題,你想象,然后說出來,就可以獲得圖像。 對于普通人來說,修圖做圖,不再是一門高深的技術,人人都可以低成本展示自己的靈感,可能在今后的時代,創意才是最貴的。 當然,硬幣也有另外一面,但AI生成的水平,逐漸逼近“以假亂真”,它被用來作惡的能力也越強。 在Nano Banana尚未出現的時候,各種AI圖就已經能夠騙到識別能力不強的人,騙過一些檢測系統。有人拿AI做出物品損壞的樣子騙商家賠款,天天薅羊毛,有人用AI生成門頭來掩蓋幽靈外賣店,假裝自己很正規。 ![]() 更不要說,每天還有各種各樣的AI假新聞圖在網上到處飛,瘋狂制造謠言…… ![]() 這種低水平的AI造假,目前我們都無法完全攔截,也不是所有人都能識破,當Nano Banana等新一代AI普及,恐怕情況會變得更加嚴重。 搞傳銷的,再也犯不著去4S蹭瑪莎拉蒂,或者砸錢請奧巴馬來合影,他們坐在電腦前就可以隨便偽造出跟大佬握手的圖,騙你入局。賣假貨的,也犯不著請什么演員來做違背祖宗的決定,隨便AI生成一下,便可以讓明星大腕一臉真誠地手持自己的產品,免費做代言。 ![]() 又或者說,詐騙犯只要搞到一張你的照片,就能制造出無數你挨打被虐的圖,讓你爹媽以為你被綁到緬北去了,然后掏空家底給你交贖金。 幾十年前,整個社會都是以 '眼見為實' 的認知體系為基礎,照片就是鐵證,視頻就是定論,因為那時候的人們知道,這些東西是難以修改和偽造的。PS的出現,第一次動搖了這個認知體系,因為偽造成本變得太低,稍微懂點技術的人都可以搞,但凡看到照片,我們腦子里都得冒出一句:“是原圖嗎?” 現如今,門檻更低、能力更強的圖片編輯AI,又準備革掉PS的命,以后會發生什么呢? 大腦的想象力,是放飛了,但我們的眼睛,好像也不值得信任。 |
|