出品 | 何璽 排版 | 葉媛 豆包現在或許有點郁悶。 7月底,火山引擎在其主辦的FORCE Link AI創新巡展·廈門站活動上,發布了豆包·圖像編輯模型3.0。憑借“聽得懂、改得對、足夠美”的AI修圖能力,豆包3.0一經發布即備受好評,為豆包拉了一波熱度。 可惜好景不長,8月5日,阿里通義千問團隊宣布開源Qwen-Image,給了豆包一記重拳。 說Qwen-Image的開源對豆包是一記重拳,一方面是因為他們擁有相似的能力,另一方面是因為Qwen-Image的開源確實會對豆包獲客造成實質影響。 01 功能相似的豆包·圖像編輯模型3.0和Qwen-Image 豆包·圖像編輯模型3.0與Qwen-Image作為近期推出的兩款圖像生成與編輯模型,在功能設計和技術實現上存在顯著相似性,尤其在自然語言指令驅動的圖像編輯能力和復雜文本渲染優化方面,例如都支持文字編輯、物體增減、風格變換等。 以文字編輯功能為例,兩者都能對圖像中的文字進行處理。豆包3.0可以精準替換海報、廣告圖中的文字,還會自動匹配原字體風格。例如,將“店家推薦”文字替換后,能保留原字體材質與背景元素,看不出改動痕跡;Qwen-Image同樣具有卓越的文本渲染能力,支持中英渲染、自動布局,文字是圖像生成時直出的,而非后期添加,效果更真實。如“消除文字”可無痕去除圖片中的水印或文字,且保留周圍紋理。在案例中,用戶輸入“把'MORE’變成'MAGAZINE’”,模型能自動匹配字體風格并調整排版。 再看物體增減功能,兩個模型都能根據指令進行物體的添加或刪除操作。豆包3.0可以無痕移除合影中的路人、圖片上的水印等多余元素,還能智能填補背景。例如,能精準鎖定黃衣女生和水印并完成雙重清除,同時不傷及主體人物和背景細節;Qwen-Image同樣支持物體增減功能,可根據用戶指令對圖像中的物體進行添加或刪除,以實現圖像編輯的目的。與豆包3.0有相似的能力。 風格變換上,豆包3.0能將圖像轉換為水彩風格、吉卜力風格、插畫風格、3D風格等。比如,可將寫實人物攝影照片轉成涂鴉插畫風格,嚴格遵循雙重約束指令,生成的畫面審美在線;Qwen-Image也能支持多種藝術風格轉換,從照片級寫實場景到印象派繪畫,從動漫風格到極簡設計,能夠靈活響應各種創意提示。例如,用戶可以通過輸入提示詞,讓其將圖像轉換為特定的藝術風格,以滿足不同的創作需求。 除了以上功能,兩者還具備一定的細節調整能力。豆包3.0在調整人物姿態時能讓其自然落座,同時保持背景、人物面部特征等其他細節毫發無損。還能對圖像的光影效果進行調整,如發出“逆光+暖色調+ 金色光暈” 的指令,可使圖像秒變電影質感。Qwen-Image在人物情緒、細節刻畫和多樣的風格渲染上表現出色,對于提示詞的理解相當準確,能夠根據提示詞對圖像的細節進行調整,以達到更好的視覺效果。 功能上的高度相似,也使得兩者在商業場景的落地上也類似。以電商廣告設計為例,使用豆包3.0,用戶可通過指令直接生成促銷海報,如“智能生發梳”案例中,模型自動生成產品圖、促銷文案及二維碼布局。而Qwen-Image則提供了標準化商業模板,例如生成帶價格標簽的電商產品圖時,文字與商品透視關系自動匹配。教育出版方面,豆包3.0支持生成帶公式注釋的課件圖像,如數學符號與示意圖的精準對齊。Qwen-Image可輸出企業級PPT頁面,標題、圖表、裝飾元素分層布局,符合專業設計規范。 通過對比可知,兩者在指令驅動編輯、文本渲染精度和商業適配性上高度相似。當然,兩者還是有區別的,豆包3.0更側重多模態交互(如語音同步生成)和低延遲響應,適合實時性要求高的場景。Qwen-Image則聚焦中文文本渲染的極致優化,尤其在復雜排版和書法效果上。 02 為什么說Qwen-Image開源對豆包的一記重拳? 有人會說,雖然Qwen-Image和豆包在功能上很相似,但兩者無論是定位還是目標用戶,乃至應用場景都完全不同,怎么說Qwen-Image開源對豆包是一記重拳? 確實,如果僅從以上維度看,兩者之間貌似沒有直接競爭,但如果從商業競爭的本質出發,會發現,Qwen-Image開源模式對開發者和企業客戶的技術賦能與生態重構,將從根本上動搖豆包的客群資源。 首先,豆包的商業模式始終圍繞“模型即服務”(MaaS)展開,其閉源特性決定了企業用戶需為API調用、私有化部署支付高昂費用。以電商海報生成場景為例,豆包的按調用量計費模式對中小商家構成顯著成本壓力,而Qwen-Image的Apache 2.0開源協議允許企業免費商用,僅需承擔本地算力成本。 技術對比顯示,Qwen-Image在生成含復雜中文排版的商業海報時,單次生成耗時僅1分鐘(48G顯存),且支持離線部署。這種“零授權費+低算力消耗”的組合,直接沖擊豆包3.0的定價體系。更關鍵的是,Qwen-Image的開源屬性降低了技術使用門檻,使中小企業無需依賴云服務商即可構建定制化圖像生成工具鏈,顛覆了閉源模型“用錢換效率”的傳統邏輯。 其次,豆包3.0的閉源特性使其在技術迭代和場景適配上存在一定的局限。例如,其圖像編輯功能雖支持深度思考模式,但底層架構封閉導致開發者無法針對特定需求優化模型。反觀Qwen-Image,其MMDiT(多模態擴散Transformer)架構的模塊化設計允許開發者靈活調整文本渲染模塊,甚至融合其他開源模型(如Stable Diffusion)的能力。 有實測案例表明,開發者可通過Qwen-Image的代碼庫,快速實現“書法字體生成+3D模型渲染”的混合工作流,而豆包3.0因技術黑箱難以支持此類定制化開發。 另外,豆包3.0依托字節跳動的流量優勢,構建了以抖音、飛書為核心的閉源生態,但其應用場景高度集中于C端娛樂與輕量化辦公。Qwen-Image的開源策略則瞄準B端垂直領域,通過魔搭、Hugging Face等平臺吸引開發者,已經在教育出版、文化遺產、工業設計等多領域形成了行業解決方案。以工業設計為例,千問就與昆侖萬維Skywork UniPic模型協同,完成從概念草圖到3D建模的全流程生成。 這種“開源模型+垂直場景”的生態裂變,正在蠶食豆包3.0的潛在市場。當企業用戶發現無需依賴字節生態即可獲得同等甚至更優的圖像生成能力時,豆包的閉源壁壘將逐漸瓦解。 或許有人會說,不是所有客戶都會選擇Qwen-Image這樣的開源模型,畢竟企業除了性價比、可控性之外,對模型效率、風險、具體場景的應用都有不同的要求。這樣的說法沒錯,但不可否認的是,Qwen-Image的開源對豆包來說確實是一記重拳,因為它真的搶走了部分技術極客和客戶。這是現實,也是事實。 03 大模型2025,字節豆包、DeepSeek、阿里千問們漸行漸遠 上面聊了Qwen-Image開源對豆包的影響,接下來,我們聊聊豆包和DeepSeek、阿里千問們漸行漸遠的大模型發展路徑。 2025年的中國AI產業,正經歷一場深刻的分化。字節跳動的豆包、DeepSeek與阿里通義千問,這三家曾同處生成式AI賽道的企業,如今在技術路徑、商業模式與生態布局上漸行漸遠。這種分化不僅是企業戰略的選擇差異,更折射出AI產業從技術競賽轉向場景深耕、從流量爭奪轉向價值重構的底層邏輯變遷。 技術路徑上,豆包依托字節跳動短視頻生態,主要聚焦與內容生成與分發效率優化。通過MoE架構(混合專家模型)和UltraMem稀疏模型,實現低算力成本下的高響應速度(毫秒級),適配抖音、剪映等場景的實時創作需求。例如,豆包的"網感化"文案生成能力,能快速適配短視頻平臺的熱點趨勢;DeepSeek技術上以"開源革命+效能革命"為核心,專注數學推理、代碼生成等結構化任務。通過動態稀疏計算架構(僅激活20%-30%參數)和知識蒸餾技術,實現低成本高性能(如DeepSeek-V3用558萬美元成本逼近GPT-4o)。其開源策略吸引超12萬開發者構建垂直解決方案(如金融風控、醫療輔助診斷);阿里千問則通過整合通義大模型與阿里云、菜鳥、盒馬等業務,其AI服務已嵌入物流調度(訂單預測準確率92%)、供應鏈金融(風控決策延遲<0.3秒)等200+場景。在硬件端,與榮耀、傳音等廠商合作推出的AI手機、翻譯耳機,將大模型能力封裝為“一鍵式”功能,用戶感知成本趨近于零。 商業模式上,豆包當前主要以技術授權與定制化解決方案(B端),付費功能與會員(C端),廣告與場景聯動,以及為政府、事業單位提供 AI 解決方案實現收入;DeepSeek則以開源模型降低企業部署成本(如教育機構用4張H20顯卡即可運行),同時通過智能體應用商店抽成和開發者工具訂閱盈利。2025年,其開源模型衍生應用已超10萬個,覆蓋醫療、法律等20+行業;阿里千問將AI能力轉化為商業基礎設施的盈利。例如在智能汽車領域,與寶馬合作的AI座艙方案中,千問模型按每輛車年行駛里程收取0.8元服務費。在政務領域,浙江省政府的智慧城市項目使其獲得每年1.2億元的獨家服務費。 生態布局上,豆包通過技術輸出、場景嵌入、外部合作三大路徑,將AI能力滲透到 “個人生活-企業運營-社會服務” 鏈條中,最終形成 “字節系內部閉環+外部開放生態” 的雙輪驅動模式。比如,抖音用戶可通過豆包生成短視頻腳本、優化文案、甚至輔助剪輯,今日頭條用戶可借助豆包快速總結新聞、解讀復雜信息等;DeepSeek則采取全棧開源策略(MIT協議),開放從7B到128B參數的全系列模型,吸引開發者構建金融、教育等垂直應用。例如,中公教育基于DeepSeek開發AI就業助手,服務效率提升60%。通過開發者激勵基金(3000萬美元)和低代碼工具降低技術門檻;千問則以阿里云為基座,提供從訓練到部署的全鏈路服務。Qwen3支持MCP協議,開發者可快速集成智能體到企業系統(如供應鏈優化)。2025年財報顯示,阿里云AI相關收入連續7個季度三位數增長,服務63%中國A股上市公司。 對比三家大模型發現,在大模型發展分化的三岔口,豆包的選擇是做C端"剛需生產力"的效率工具,DeepSeek是"開源+垂直"的技術中臺,千問是"生態+場景"的企業服務,各家路徑漸行漸遠。而它們的不同選擇,也分別代表了消費互聯網、技術開源生態和產業互聯網的AI落地范式。 從根本上說,AI大模型在2025年的發展分化,本質是大廠技術路線選擇、資源稟賦差異與生態策略分野的綜合結果,也是AI產業從“技術定義產品”轉向“場景定義價值”的必然。這種路徑選擇并沒有對錯,也并非最終路線。未來,大廠們還將圍繞垂直場景深耕、技術普惠化、生態主導權展開爭奪。 |
|
來自: 新用戶8173cUnz > 《待分類》