![]() 編輯/排版:卒見 現(xiàn)在我們工作會議的時,都會用到錄音轉(zhuǎn)文字工具,我個人也會在工作和娛樂的時候用到這些工具,這里就給大家分享幾款不一樣的語音轉(zhuǎn)文字工具,都是免費、開源項目! 01 Voice-Pro AI 語音轉(zhuǎn)換和多語言翻譯工具 Voice-Pro 是一款由AI驅(qū)動的Web開源應用程序,旨在徹底改變多媒體內(nèi)容處理。 ![]() 它集轉(zhuǎn)錄、翻譯和文字轉(zhuǎn)語音為一體,提供簡潔直觀的可視化操作界面,支持實時轉(zhuǎn)錄和翻譯,以及批量處理模式。 ![]() 它具有 YouTube 視頻下載、語音分離、語音識別、翻譯和文本轉(zhuǎn)語音的全面功能。 ![]() Voice-Pro 安裝。 ①運行configure.bat 并start.bat ②克隆或下載最新版本(源代碼 zip)GitHub 版本 git clone https://github.com/abus-aikorea/voice-pro.git ③運行configure.bat,在 Windows 上安裝 git、ffmpeg 和 CUDA ④連接互聯(lián)網(wǎng),這個過程可能需要一個多小時,看系統(tǒng)情況。 ⑤在安裝過程中,請勿關(guān)閉 Windows-Command 窗口。 ![]() ⑥啟動 Voice-Pro。Web-UI 將自動運行。 首次運行時,請先安裝 Voice-Pro。 如果在安裝過程中出現(xiàn)問題,請刪除 installer_files 文件夾并再次運行 start.bat。 ![]() 該項目是用于音頻處理的綜合 Gradio WebUI,具有 Voice Changer、零樣本語音克隆(E2、F5-TTS)、YouTube 下載、語音隔離 (UVR5)、文本轉(zhuǎn)語音 (Edge-TTS) 和多語言翻譯。適用于內(nèi)容創(chuàng)建者和開發(fā)人員。 Voice-Pro源代碼: https://pan./s/ccbde0108f7f 開源地址: https://github.com/abus-aikorea/voice-pro 02 PodCastLM PDF 生成中文播客! 一款開源免費的工具,可以將 PDF 內(nèi)容轉(zhuǎn)化為適合音頻播客的自然對話,并輸出為 MP3 文件。 操作很簡單: ①我們可以直接將需要轉(zhuǎn)換的內(nèi)容上傳到操作頁面,這里可上傳1M以內(nèi)的PDF文件; ![]() ②然后設置語氣、時長等,生成播客,你可以查看到文本總結(jié)內(nèi)容,以及整理后的腳本內(nèi)容! ![]() ③點擊底部音頻按鈕,即可播放當前整理好的內(nèi)容! ![]() 開源地址: https://github.com/YOYZHANG/PodCastLM 在線地址:https://ai. 03 video-srt-windows 自動識別視頻語音生成字幕文件的工具 video-srt-windows是一個可以識別視頻語音自動生成字幕SRT文件的開源 Windows-GUI 軟件工具。 ![]() 它采用 Go+walk 開發(fā),僅支持 Windows 系統(tǒng)。基礎原理是請求在線語音轉(zhuǎn)文字的服務,超出免費額度需付費。另外還加入了導出字幕文件和翻譯功能。 VideoSrt下載: https://pan./s/ebd97ead46e3 開源地址: https://github.com/wxbool/video-srt-windows https:///gh_mirrors/vi/video-srt-windows 04 buzz 音頻轉(zhuǎn)錄與翻譯工具,可以在你的個人計算機上離線轉(zhuǎn)錄和翻譯音頻服務。 ![]() 該項目是基于 Whisper 的音頻轉(zhuǎn)錄和翻譯工具,開箱即用、操作簡單,支持語音轉(zhuǎn)文字、音頻翻譯、多種語言和離線使用! ![]() Mac 原生版本的 Buzz,具有更簡潔的外觀、音頻播放、拖放導入、轉(zhuǎn)錄文本編輯、搜索等功能。它同時適用于Windows 和 Linux 平臺。 ![]() 功能支持: ①導入音頻和視頻文件并將轉(zhuǎn)錄文本導出為 TXT、SRT 和 VTT(演示) ②從計算機的麥克風轉(zhuǎn)錄和翻譯為文本 ![]() ③支持Whisper、Whisper.cpp、Faster Whisper、Whisper兼容的 Hugging Face 模型,以及 OpenAI Whisper API ④命令行界面 ![]() Buzz v1.2.0下載: https://pan./s/8c08670cfe56 開源地址: https://github.com/chidiwilliams/buzz 05 ChatTTS SOTA 開源 TTS,強大的對話式文本轉(zhuǎn)語音模型,專門為對話場景設計,支持中、英雙語。生成較短的語音效果很好,無機械感! ![]() 它主要用于 LLM 助手對話任務、對話語音以及視頻介紹等,支持中英文混合文本合成語音,音色表現(xiàn)強,能達到真假難辨程度。 ![]() 它不僅能夠生成自然、流暢的語音,還能控制和添加笑聲、停頓和語氣詞等。 ChatTTS源代碼: https://pan./s/48101f70fc83 開源地址: https://github.com/2noise/ChatTTS 06 fish-speech 所有人都能用的開源語音合成模型 該項目是由 Fish Audio 開發(fā)的基于 VQGAN+Llama 的文本轉(zhuǎn)語音模型,它僅需 4GB 顯存即可在個人設備上輕松運行和微調(diào)(16GB),支持中英日語和音色調(diào)整,語音合成效果出色。 ![]() fish-speech源代碼: https://pan./s/cf829869e7f0 開源地址: https://github.com/fishaudio/fish-speech 07 GPT-SoVITS 少樣本語音轉(zhuǎn)換和合成工具 強大的少樣本語音轉(zhuǎn)換和語音合成 WebUI 工具,輸入 5 秒的聲音樣本就能體驗文本到語音轉(zhuǎn)換。支持少樣本 TTS、英語、日語和中文,集成了聲音伴奏分離、中文自動語音識別和文本標注等功能。 ![]() 特色功能: 零點TTS:輸入5秒的人聲樣本并體驗即時文本到語音轉(zhuǎn)換。 少發(fā)TTS:只需1分鐘的訓練數(shù)據(jù)即可微調(diào)模型,以提高語音相似度和真實感。 ![]() 跨語言支持:使用與訓練數(shù)據(jù)集不同的語言進行推理,目前支持英語、日語、韓語、粵語和中文。 WebUI 工具:集成工具包括語音伴奏分離、自動訓練集分割、中文 ASR 和文本標注,幫助初學者創(chuàng)建訓練數(shù)據(jù)集和 GPT/SoVITS 模型。 ![]() 開源地址: https://github.com/RVC-Boss/GPT-SoVITS kua鏈: https://pan./s/cf509d794f54 du鏈: https://pan.baidu.com/s/1AQwPg3B60RlozShq97h4_g?pwd=gecp 提取碼: gecp Ok,本期的分享就到這里了,希望以上語音轉(zhuǎn)文字、文字轉(zhuǎn)語音的工具可以幫助你,不管是在生活上,還是在工作中,提高效率! |
|