人工智能[1735]Stable Diffusion 3 驚艷亮相，還與 Sora 是同架構，生成圖像真假難辨！

趙站長的博客 2024-02-24 發布于北京

展開全文

人工智能[1735]

大模型領域，每家公司都在爭分奪秒。在文生圖這條賽道上，面對 Midjourney、DALL-E 的圍攻，2 月 22 日，初創公司 Stability AI 宣布推出下一代 AI 圖像生成器——Stable Diffusion 3（簡稱 SD3），以開放權重的形式為圖像帶來高保真度。

提示詞：史詩級動漫作品：一位巫師在夜晚的山頂上向黑暗的天空施放宇宙咒語，咒語上寫著“Stable Diffusion 3”，由五彩繽紛的能量組成

用上了和 Sora 同架構的 Stable Diffusion 3

時下 Stability AI 并沒有發布有關 Stable Diffusion 3 的諸多細節，也沒有帶來最新的技術報告詳解，但是這不影響它的一些亮眼表現。

其一，Stable Diffusion 3 模型的參數范圍從 800M（小于常用 Stable Diffusion 1.5 版本）到 8B （大于 Stable Diffusion XL 版本）不等。

這一尺寸范圍允許模型的不同版本在各個設備譬如從智能手機到服務器上本地運行。要想使用，你可能仍然需要一個強大的 GPU 和一個用于機器學習工作的設置。

其二，Stable Diffusion 3 之所以被稱之為“最強大的文本到圖像模型”，是因為自 Stable Diffusion 3 使用了類似 OpenAI Sora 的技術，即擴散 Transformer 架構。其中，“基于 Transformer 的可擴展擴散模型 DiT”由領導 Sora 項目成員之一的 Will Peebles 和紐約大學任助理教授謝賽寧二人于 2022 年首創，但是于 2023 年進行了修訂，現在已經達到可擴展性。通過增加 Transformer 的深度和寬度，以及改變輸入圖像的分塊方式，DiT 模型能夠生成具有高質量和細節的圖像。

基于此，Stable Diffusion 3 大大提高了多主題提示、圖像質量和拼寫能力（文字渲染）的性能。

除此之外，該模型還采用了“flow matching”技術。該模型可以通過學習如何從隨機噪音順利過渡到結構化圖像來生成圖像。它不需要模擬流程中的每一步，而是專注于圖像創建應遵循的整體方向或流程，同樣可以在不增加太多開銷的情況下提高質量。

在 X 社交平臺上，Stability AI CEO Emad Mostaque 也進一步補充道：

- 它使用了一種新型擴散 Transformer（與 Sora 類似），并結合了 flow matching 和其他改進。

- 它利用了 Transformer 的改進，不僅能進一步擴展，還能接受多模式輸入。

- 更多技術細節即將發布

- 將以開放形式發布，預覽版旨在提高其質量和安全性，就像穩定版一樣

- 它將與完整的工具生態系統一起推出

- 這是一個利用最新硬件的新平臺，有各種尺寸可供選擇

- 支持視頻、3D 等功能

- 需要更多 GPU

至于對于如何把控 Stable Diffusion 3 的安全問題，該公司在公告中寫道：“我們相信安全、負責任的人工智能實踐。這意味著我們已經采取并將繼續采取合理的措施，防止壞人濫用 Stable Diffusion 3。當我們開始訓練模型時，安全就開始了，并持續到測試、評估和部署的整個過程。為了準備這個早期預覽版，我們引入了許多保護措施。通過與研究人員、專家和我們的社區不斷合作，我們希望在模型公開發布時能夠進一步誠信創新。”

同一提示詞下，SD3 vs Bing（DALL-E）vs Midjourney

值得注意的是，在沒有完全掌控 AI 工具之前，其背后的研發公司都不敢貿然將其開放。Stability AI 也是如此，所以想要嘗試的小伙伴，需要先提交申請進入候補名單：https:///stablediffusion3

我們也可以從 Stability 網站和相關社交媒體賬戶上發布的樣本來看，其生成效果似乎與目前其他最先進的圖像合成模型大致相當，包括業界已有的 DALL-E 3、Adobe Firefly、Imagine with Meta AI、Midjourney 和 Google Imagen。

從生成圖片的效果上來看，過去排版一直也是 Stable Diffusion 的一個弱點，包括上述提及到幾款文生圖大模型最近也在致力于解決這個問題。在 Stable Diffusion 3 中，它提供了比之前更好的排版。

“這要歸功于 Transformer 架構和額外的文本編碼器，現在可以使用完整的句子和連貫的風格”，Emad Mostaque 說道。這一點也可以從下面示例中明顯感知此模型的進化。

提示詞：電影照片，教室的桌子上放著一個紅蘋果，黑板上用粉筆寫著 "不成功便成仁"（go big or go home）。

不難看出 Stable Diffusion 3 生成的圖片真的有電影的質感：

相同提示下 Midjourney v6.0 的表現：

提示：一幅畫中包含宇航員騎著一只豬，穿著蓬蓬裙，撐著一把粉紅色的傘，豬旁邊的地上有一只戴著高帽的知更鳥，角落里有 "Stable Diffusion"的字樣。

Stable Diffusion 3 自動調整，把"Stable Diffusion"的字樣好似設置成了水印。

與 Bing 相同的提示：

同一提示下的 DALLE-3：

Midjourney 6：

提示：變色龍在黑色背景上的攝影棚照片特寫

Stable Diffusion 3 非常生動：

也有用戶直接分享了具有相同的提示 Gemini Advanced/Ultra 生成效果：

Stable Diffusion 3 也能夠很好地處理很多文本：

提示：一張 90 年代臺式電腦放在辦公桌上的照片，電腦屏幕上寫著“歡迎”。

DALL-E：

創作沒有瓶頸，生成的圖像和真實的相片難以分辨：

動畫風格的同樣不在話下：

對于未來，Stability AI CEO Emad Mostaque 還透露，在獲得 SD3 這樣的基礎模型之后，接下來關于控制、組合、協作等多功能特性也會隨之而至，正如下面視頻所示，可以直接對圖片中的某一個事物進行優化替換，未來可期！

最后，就在 Stable Diffusion 3 發布的同時，這一領域的重要參與者 Google 也宣布，因為在發現自家的大模型 Gemini 生成不準確的歷史圖像后，它將暫停該工具生成人物圖像的功能。

這也引發了不少人的擔憂，“這些東西變得越來越令人印象深刻（也更可怕）。不知道解決方案是什么，或者是否有解決方案，但我真的希望能夠有一種方法來驗證圖像/視頻是人工智能生成的。根據我對 Deepfakes 工作方式的理解，這基本上是不可能的（因為你用來檢測人工智能的相同工具被用來確保它不會被檢測為人工智能。）”。

至今為止，似乎的確沒有什么準確的方法來辨別內容是否是 AI 生成的還是真實創作的，未來也需要技術、教育、法規等多方面的制度完善來規避諸多潛在的問題。

整體而言，Stable Diffusion 3 的落地，也讓很多 AI 從業者倍感期待，“對于一直堅持使用文生圖工具的用戶來說，Stable Diffusion 3 看起來比 Midjourney V6 更好。它至少與 DALL·E 3 有部分相似之處，這對開放式設計來說可能是巨大的進步。”

還有網友評論道：“期待未來能出一個渲染中文文字的模型”。

我是一位愛學習的老人！本站主要是些學習體驗與分享(其中會引用一些作品的原話并結合我的一生體會與經驗加工整理而成！在此一并感謝！如有不妥之處敬請與我聯系,我會妥善處理，謝謝！)我寫的主要是中老年人各方面應注意的事兒！退休后我希望通過這個平臺廣交朋友，互助交流，共筑美好生活！！！！！！更多文章請參看http://www.趙站長的博客。期待大家的光臨與指教哦^0^！歡迎大家轉發！