日榜 #32026-06-23

jamiepine/voicebox

The open-source AI voice studio. Clone, dictate, create.

★ 32.2k stars · ▲ +529 今日 · 🔶 TypeScript · 📜 MIT · 官網在 GitHub 開啟 ↗

aicudamlxqwen3-ttsqwen3-tts-uivoice-aivoice-clonewhisper

ℹ️ 今日 trending #1 是 calesthio/OpenMontage（已於 2026-06-22 推過），故改推第 3 名。

這是什麼

Voicebox 是一個 local-first AI voice studio：把聲音複製、語音生成、全域聽寫、轉錄與代理語音輸出放在同一個本機應用裡。README 將它描述為 ElevenLabs 與 WisprFlow 的開源替代方案：前者偏輸出，後者偏輸入，而 Voicebox 想補齊整條 voice I/O loop。它支援多個 TTS 引擎、Whisper STT、聲音 profile、聲音人格與 MCP server，重點是模型、聲音資料與 captures 都留在使用者機器上。

為什麼上榜

這次日榜資料顯示專案已有 32,202 stars，單日新增 529 stars。它爆紅的原因不只是「做語音生成」，而是把近來開發者關注的本機 AI、語音複製、多模型整合與代理工作流包成一個產品。README 列出 Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox、TADA、Kokoro 等 7 種 TTS 引擎，再加上 Whisper 聽寫與 MCP，讓它看起來更像語音工作室，而不是單一模型 UI。

適合誰，可以拿來做什麼

它適合想把語音素材與模型操作留在本機的創作者、開發者與 AI 工具重度使用者。你可以用它做 podcast 或故事對話草稿、遊戲／敘事角色聲音、語音輔助，或讓 Claude Code、Cursor、Cline 等支援 MCP 的代理用指定聲音說話。README 也提到 Stories Editor、Captures、後製效果與模型管理；但這不是零設定雲端服務，使用者仍需要理解平台、GPU 後端與模型下載。

上手

README 提供下載入口，而不是完整命令列 quick start。macOS 有 Apple Silicon 與 Intel DMG，Windows 有 MSI；Linux 目前 尚未提供預編譯 binary，需參考 voicebox.sh/linux-install 從原始碼建置。若遇到安裝、生成、模型下載或 GPU 問題，README 指向 Troubleshooting Guide。最實際的上手方式是先安裝對應桌面版，再透過 UI 下載模型、建立聲音 profile，Linux 使用者則要預期更多建置步驟。

README 重點摘要

完整 voice I/O stack：聲音複製、生成、聽寫、Whisper 轉錄與代理語音輸出整合在一起。
多引擎 TTS：支援 7 種 TTS 引擎、預設聲音、zero-shot 參考樣本與表情／副語言標籤。
MCP 與 API-first：提供 REST API 與內建 MCP server，代理可呼叫 voicebox.speak。
本機隱私取向：README 強調模型、聲音資料與 captures 不離開使用者機器。
平台支援廣：涵蓋 macOS、Windows、Linux、AMD ROCm、Intel Arc、Docker，但 Linux 需自行建置。