TTS之Seed-VC:Seed-VC的簡介、安裝和使用方法、案例應用之詳細攻略 Seed-VC 項目簡介2024年9月,Seed-VC是一個先進的零樣本語音轉換和唱歌語音轉換模型,它利用上下文學習技術,無需任何訓練即可克隆語音。只需提供1到30秒的參考語音,Seed-VC就能轉換任意語音到目標語音風格。該項目目前支持零樣本語音轉換、零樣本實時語音轉換和零樣本唱歌語音轉換。 GitHub地址:https://github.com/Plachtaa/seed-vc 1、Seed-VC 的特點>> 零樣本語音轉換:無需針對目標說話人進行訓練,即可將語音轉換成目標說話人的聲音。 Seed-VC 的安裝和使用方法1、安裝建議使用Python 3.10版本在Windows或Linux系統上運行。安裝依賴包:
2、使用方法:T1、命令行接口???????
參數說明: source:待轉換語音文件的路徑。 target:目標語音(參考語音)文件的路徑。 output:輸出目錄的路徑。 diffusion-steps:擴散步驟數,默認25,唱歌語音轉換建議使用50-100,快速轉換可以使用4-10。 length-adjust:長度調整因子,默認1.0,小于1.0加快語音速度,大于1.0減慢語音速度。 inference-cfg-rate:對輸出有細微影響,默認0.7。 f0-condition:是否根據源音頻的音高調整輸出音高,默認False,唱歌語音轉換設置為True。 auto-f0-adjust:是否自動調整源音頻音高到目標音高水平,默認False,唱歌語音轉換通常不使用。 semi-tone-shift:唱歌語音轉換的音高偏移(半音),默認0。 T2、Gradio 網頁界面運行 python app.py,然后在瀏覽器打開 http://localhost:7860/ 使用網頁界面。
T3、在線測試測試地址:Seed-VC 3、實時語音轉換GUI運行 python real-time-gui.py。強烈建議使用GPU進行實時語音轉換。 項目中提供了不同GPU配置下的參數建議,以優化性能和質量。
Seed-VC 的案例應用項目提供了大量的客觀評估結果,包括零樣本語音轉換和零樣本唱歌語音轉換的評估。 1、零樣本語音轉換評估使用LibriTTS-test-clean數據集的100個隨機語句作為源音頻,以及12個隨機選擇的真實語音作為參考音頻。評估指標包括說話人嵌入余弦相似度(SECS)、詞錯誤率(WER)和字符錯誤率(CER)。結果表明,Seed-VC顯著優于OpenVoice和CosyVoice基準模型。 還與非零樣本模型(So-VITS-4.0)進行了比較,結果顯示Seed-VC即使未在目標說話人上進行訓練,也能取得更好的結果。
2、零樣本唱歌語音轉換評估使用M4Singer數據集進行評估,比較了Seed-VC與針對每個說話人訓練的RVCv2-f0-48k模型。評估指標包括F0CORR、F0RMSE、SECS和CER。結果顯示,Seed-VC在說話人相似度和清晰度方面優于RVCv2模型,但音頻質量略低,項目組表示未來會優先改進音頻質量。 |
|