本文介紹Stable Diffusion的快速上手,本地部署,以及更多有趣的玩法展示。 在 DALL-E 2 和 Imagen 之后,AI繪圖領(lǐng)域又一個熱乎的深度學習模型出爐——Stable Diffusion 。8月份發(fā)布的 Stable Diffusion 更加高效且輕量,可以在消費級 GPU 上運行。StableAI公司表示:“它在速度和質(zhì)量上的突破意味著它可以在消費者級的 GPU 上運行。這將允許研究人員和公眾在一系列條件下運行它,并使圖像生成普及化。” 這意味著現(xiàn)在你只需一句話和幾十秒的時間,就可以讓你腦海中天馬行空的畫面出現(xiàn)在你眼前: 或者隨手畫一筆,讓ai幫你加“億點點“細節(jié): 怎么上手玩起來前兩種方式都比較簡單,Colab看起來復(fù)雜,實際上一步一步按照提示來,也很簡單。所以本文著重講解本地部署的步驟和如何解決會遇到的坑。
DreamStudio最簡單無腦的上手途徑,打開官網(wǎng),輸入一段話,等待結(jié)果出來就可以。沒啥好說的,適合快速上手體驗一下,或者付費玩家。 Google Colab運行“Colab”,是 Google Research 團隊開發(fā)的一款產(chǎn)品。可以通過瀏覽器編寫和執(zhí)行Python。可以免費分配使用包括 GPU 在內(nèi)的計算資源。 打開這個Colab筆記本頁面,按照步驟和提示執(zhí)行就OK了。可能存在的坑模型的載入,需要用到Hugging Face ,不過也都不是什么問題。 雖然看著繁瑣,但是可以薅羊毛用免費的顯卡資源,性能也還不錯,還是很香的。colab.research.google.com/github/hugg… 本地/云服務(wù)器部署目前存在多個基于官方代碼倉庫fork出來的不同版本,可以有不同的部署和運行方式,包括docker部署,webUI。這里講解基于官方的原版進行部署和使用,其他的方式都大同小異。 硬件本地10G顯存以上的顯卡(顯存不夠也有其他辦法),或租用擁有對應(yīng)配置的云服務(wù) 環(huán)境依賴Python,Conda 具體步驟1. 下載模型權(quán)重文件
目前最新的是sd-v1-4.ckpt,版本越高,訓練的數(shù)據(jù)量越大,下載最新版本即可,4.27GB 去huggingface下載:/CompVis/sta… curl下載: curl https://www./storage/v1/b/aai-blog-files/o/sd-v1-4.ckpt?alt=media > sd-v1-4.ckpt 復(fù)制代碼 2. 安裝pythondddd, 不贅述 3. 安裝CondaConda 是一個依賴包和環(huán)境管理工具,有Anaconda 和 Miniconda兩個版本,這里使用 可以官網(wǎng)下載對應(yīng)的安裝包,也可以命令行下載安裝。 如果安裝成功,可以通過 4. 拉取Stable-Diffusion代碼庫到本地git clone https://github.com/CompVis/stable-diffusion.git cd stable-diffusion/ 復(fù)制代碼 5. 創(chuàng)建并激活 Conda 環(huán)境a. 創(chuàng)建ldm環(huán)境 進入Stable Diffusion代碼目錄,使用environment.yaml文件,創(chuàng)建Conda環(huán)境。 conda env create -f environment.yaml 復(fù)制代碼 這個命令會根據(jù)environment.yaml文件,創(chuàng)建一個名字叫做 可能出現(xiàn)的問題:
pip config set global.index-url https://pypi.tuna./simple 復(fù)制代碼
# 查看已存在環(huán)境 conda env list # 先切換到base環(huán)境 conda activate base # 刪除ldm conda env remove --name ldm 復(fù)制代碼 b. 激活ldm環(huán)境 conda activate ldm 復(fù)制代碼 6. 生成腳本跑起來!走完前面這些步驟,確認一下你的模型權(quán)重文件下載好了沒有, python scripts/txt2img.py --prompt "rainbow ice cream cone" --plms --ckpt sd-v1-4.ckpt --skip_grid --n_samples 1 復(fù)制代碼 如果執(zhí)行成功,你應(yīng)該可以在output文件夾內(nèi)找到生成出來的彩色甜筒??的圖片。 可能出現(xiàn)的問題:
嘗試把 除了文字生成圖,還有可以玩圖生圖。 一些能讓圖像更加有趣的提示詞內(nèi)容建議:
?? 更多玩法顯存不夠10G怎么玩可以使用顯存占用優(yōu)化的版本,犧牲推理速度,以獲得比原始版本更少的顯存占用。可以使用2.4G顯存生成512*512尺寸圖片。 為了減少顯存使用進行的優(yōu)化:
接入機器翻譯,讓他支持中文提示詞開啟web服務(wù),接入有道翻譯api,讓他自動翻譯輸入的中文提示詞,并執(zhí)行圖片生成。 說到中文支持,百度文心大模型發(fā)布的“ERNIE-ViLG 文生圖”,最近也在開放測試,有更好的中文語境理解,更能理解你的中文梗。不過完整功能需要申請體驗,參數(shù)較少,可玩性比較弱。 更有意思的圖生圖除了單純的文字作為輸入生成圖片,Stable Diffusion還支持文字+圖片作為輸入,生成新的圖片。就像最前面所展示過的,可以理解成你提供一個草圖,ai根據(jù)你的要求,幫你添加億點點細節(jié)。 這是我嘗試的,使用一個簡單的線條圖片,加上一段描述文字:“一只耐克鞋”,所生成的結(jié)果: 如果我把他的輸出再次變?yōu)檩斎耄貜?fù)渲染,可以得到更多不同的結(jié)果。甚至可以一秒換品牌... Stability AI 的口號是 “AI by the people, for the people”。AI從群眾中來,到群眾中去。他可以單純用來創(chuàng)作你天馬行空的想象,也可以用作你文章的免費配圖,能輔助你的工作,甚至能參賽獲獎!趕快玩起來吧。
|
|