【原】7款少有人知的語音轉(zhuǎn)文字黑科技軟件，開源免費強大！

語倅樓 2025-01-04 發(fā)布于上海

展開全文

編輯/排版：卒見

現(xiàn)在我們工作會議的時，都會用到錄音轉(zhuǎn)文字工具，我個人也會在工作和娛樂的時候用到這些工具，這里就給大家分享幾款不一樣的語音轉(zhuǎn)文字工具，都是免費、開源項目！

Voice-Pro

AI 語音轉(zhuǎn)換和多語言翻譯工具

Voice-Pro 是一款由AI驅(qū)動的Web開源應用程序，旨在徹底改變多媒體內(nèi)容處理。

它集轉(zhuǎn)錄、翻譯和文字轉(zhuǎn)語音為一體，提供簡潔直觀的可視化操作界面，支持實時轉(zhuǎn)錄和翻譯，以及批量處理模式。

它具有 YouTube 視頻下載、語音分離、語音識別、翻譯和文本轉(zhuǎn)語音的全面功能。

Voice-Pro 安裝。

①運行configure.bat 并start.bat

②克隆或下載最新版本（源代碼 zip）GitHub 版本

git clone https://github.com/abus-aikorea/voice-pro.git

③運行configure.bat，在 Windows 上安裝 git、ffmpeg 和 CUDA

④連接互聯(lián)網(wǎng)，這個過程可能需要一個多小時，看系統(tǒng)情況。

⑤在安裝過程中，請勿關(guān)閉 Windows-Command 窗口。

⑥啟動 Voice-Pro。Web-UI 將自動運行。

首次運行時，請先安裝 Voice-Pro。

如果在安裝過程中出現(xiàn)問題，請刪除 installer_files 文件夾并再次運行 start.bat。

該項目是用于音頻處理的綜合 Gradio WebUI，具有 Voice Changer、零樣本語音克隆（E2、F5-TTS）、YouTube 下載、語音隔離（UVR5）、文本轉(zhuǎn)語音（Edge-TTS）和多語言翻譯。適用于內(nèi)容創(chuàng)建者和開發(fā)人員。

Voice-Pro源代碼：

https://pan./s/ccbde0108f7f

開源地址：

https://github.com/abus-aikorea/voice-pro

PodCastLM

PDF 生成中文播客！

一款開源免費的工具，可以將 PDF 內(nèi)容轉(zhuǎn)化為適合音頻播客的自然對話，并輸出為 MP3 文件。

操作很簡單：

①我們可以直接將需要轉(zhuǎn)換的內(nèi)容上傳到操作頁面，這里可上傳1M以內(nèi)的PDF文件；

②然后設置語氣、時長等，生成播客，你可以查看到文本總結(jié)內(nèi)容，以及整理后的腳本內(nèi)容！

③點擊底部音頻按鈕，即可播放當前整理好的內(nèi)容！

開源地址：

https://github.com/YOYZHANG/PodCastLM

在線地址：https://ai.

video-srt-windows

自動識別視頻語音生成字幕文件的工具

video-srt-windows是一個可以識別視頻語音自動生成字幕SRT文件的開源 Windows-GUI 軟件工具。

它采用 Go+walk 開發(fā)，僅支持 Windows 系統(tǒng)。基礎原理是請求在線語音轉(zhuǎn)文字的服務，超出免費額度需付費。另外還加入了導出字幕文件和翻譯功能。

VideoSrt下載：

https://pan./s/ebd97ead46e3

開源地址：

https://github.com/wxbool/video-srt-windows

https:///gh_mirrors/vi/video-srt-windows

buzz

音頻轉(zhuǎn)錄與翻譯工具，可以在你的個人計算機上離線轉(zhuǎn)錄和翻譯音頻服務。

該項目是基于 Whisper 的音頻轉(zhuǎn)錄和翻譯工具，開箱即用、操作簡單，支持語音轉(zhuǎn)文字、音頻翻譯、多種語言和離線使用！

Mac 原生版本的 Buzz，具有更簡潔的外觀、音頻播放、拖放導入、轉(zhuǎn)錄文本編輯、搜索等功能。它同時適用于Windows 和 Linux 平臺。

功能支持：

①導入音頻和視頻文件并將轉(zhuǎn)錄文本導出為 TXT、SRT 和 VTT（演示)

②從計算機的麥克風轉(zhuǎn)錄和翻譯為文本

③支持Whisper、Whisper.cpp、Faster Whisper、Whisper兼容的 Hugging Face 模型，以及 OpenAI Whisper API

④命令行界面

Buzz v1.2.0下載：

https://pan./s/8c08670cfe56

開源地址：

https://github.com/chidiwilliams/buzz

ChatTTS

SOTA 開源 TTS，強大的對話式文本轉(zhuǎn)語音模型，專門為對話場景設計，支持中、英雙語。生成較短的語音效果很好，無機械感！

它主要用于 LLM 助手對話任務、對話語音以及視頻介紹等，支持中英文混合文本合成語音，音色表現(xiàn)強，能達到真假難辨程度。

它不僅能夠生成自然、流暢的語音，還能控制和添加笑聲、停頓和語氣詞等。

ChatTTS源代碼：

https://pan./s/48101f70fc83

開源地址：

https://github.com/2noise/ChatTTS

fish-speech

所有人都能用的開源語音合成模型

該項目是由 Fish Audio 開發(fā)的基于 VQGAN+Llama 的文本轉(zhuǎn)語音模型，它僅需 4GB 顯存即可在個人設備上輕松運行和微調(diào)(16GB)，支持中英日語和音色調(diào)整，語音合成效果出色。

fish-speech源代碼：

https://pan./s/cf829869e7f0

開源地址：

https://github.com/fishaudio/fish-speech

GPT-SoVITS

少樣本語音轉(zhuǎn)換和合成工具

強大的少樣本語音轉(zhuǎn)換和語音合成 WebUI 工具，輸入 5 秒的聲音樣本就能體驗文本到語音轉(zhuǎn)換。支持少樣本 TTS、英語、日語和中文，集成了聲音伴奏分離、中文自動語音識別和文本標注等功能。

特色功能：

零點TTS：輸入5秒的人聲樣本并體驗即時文本到語音轉(zhuǎn)換。

少發(fā)TTS：只需1分鐘的訓練數(shù)據(jù)即可微調(diào)模型，以提高語音相似度和真實感。

跨語言支持：使用與訓練數(shù)據(jù)集不同的語言進行推理，目前支持英語、日語、韓語、粵語和中文。

WebUI 工具：集成工具包括語音伴奏分離、自動訓練集分割、中文 ASR 和文本標注，幫助初學者創(chuàng)建訓練數(shù)據(jù)集和 GPT/SoVITS 模型。

開源地址：

https://github.com/RVC-Boss/GPT-SoVITS

kua鏈：

https://pan./s/cf509d794f54

du鏈：

https://pan.baidu.com/s/1AQwPg3B60RlozShq97h4_g?pwd=gecp

提取碼: gecp

Ok，本期的分享就到這里了，希望以上語音轉(zhuǎn)文字、文字轉(zhuǎn)語音的工具可以幫助你，不管是在生活上，還是在工作中，提高效率！

?5款鮮有人知的剪輯黑科技app

?5款堪稱神器的黑科技軟件

?強烈推薦4款Windows工具神器

贊賞

共11人贊賞

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：語倅樓 > 《待分類》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

語倅樓

關(guān)注對話

TA的最新館藏

一個功能就很好，6款簡單的開源黑科技文件工具！
無損音樂輕松獲取指南：告別廣告與付費墻，一鍵下載即開即聽！
8款AI文本生成視頻工具推薦 - 免費/開源篇
這10款視頻解析神器能解燃眉之急，無水印素材這樣搞定！
3款AI工具結(jié)合，教你用AI完成自媒體平臺起號
4款萬能投放軟件分享，教你手機電腦投屏方法

喜歡該文的人也喜歡更多

熱門閱讀換一換