jamiepine/voicebox
The open-source AI voice studio. Clone, dictate, create.
calesthio/OpenMontage(已於 2026-06-22 推過),故改推第 3 名。這是什麼
Voicebox 是一個 local-first AI voice studio:把聲音複製、語音生成、全域聽寫、轉錄與代理語音輸出放在同一個本機應用裡。README 將它描述為 ElevenLabs 與 WisprFlow 的開源替代方案:前者偏輸出,後者偏輸入,而 Voicebox 想補齊整條 voice I/O loop。它支援多個 TTS 引擎、Whisper STT、聲音 profile、聲音人格與 MCP server,重點是模型、聲音資料與 captures 都留在使用者機器上。
為什麼上榜
這次日榜資料顯示專案已有 32,202 stars,單日新增 529 stars。它爆紅的原因不只是「做語音生成」,而是把近來開發者關注的本機 AI、語音複製、多模型整合與代理工作流包成一個產品。README 列出 Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox、TADA、Kokoro 等 7 種 TTS 引擎,再加上 Whisper 聽寫與 MCP,讓它看起來更像語音工作室,而不是單一模型 UI。
適合誰,可以拿來做什麼
它適合想把語音素材與模型操作留在本機的創作者、開發者與 AI 工具重度使用者。你可以用它做 podcast 或故事對話草稿、遊戲/敘事角色聲音、語音輔助,或讓 Claude Code、Cursor、Cline 等支援 MCP 的代理用指定聲音說話。README 也提到 Stories Editor、Captures、後製效果與模型管理;但這不是零設定雲端服務,使用者仍需要理解平台、GPU 後端與模型下載。
上手
README 提供下載入口,而不是完整命令列 quick start。macOS 有 Apple Silicon 與 Intel DMG,Windows 有 MSI;Linux 目前 尚未提供預編譯 binary,需參考 voicebox.sh/linux-install 從原始碼建置。若遇到安裝、生成、模型下載或 GPU 問題,README 指向 Troubleshooting Guide。最實際的上手方式是先安裝對應桌面版,再透過 UI 下載模型、建立聲音 profile,Linux 使用者則要預期更多建置步驟。
README 重點摘要
- 完整 voice I/O stack:聲音複製、生成、聽寫、Whisper 轉錄與代理語音輸出整合在一起。
- 多引擎 TTS:支援 7 種 TTS 引擎、預設聲音、zero-shot 參考樣本與表情/副語言標籤。
- MCP 與 API-first:提供 REST API 與內建 MCP server,代理可呼叫
voicebox.speak。 - 本機隱私取向:README 強調模型、聲音資料與 captures 不離開使用者機器。
- 平台支援廣:涵蓋 macOS、Windows、Linux、AMD ROCm、Intel Arc、Docker,但 Linux 需自行建置。