
ElevenLabs 的声音克隆效果不错但每月几十刀加上音频数据要上传到他们服务器——这两道坎不小。Voicebox 是开源平替28000 Star核心是本地优先。几秒钟参考音频就能生成声音模型覆盖23种语言。内置7个TTS引擎各有侧重Chatterbox Turbo 支持 [laugh]、[sigh] 这类情绪标签让生成语音带真实情绪Qwen3-TTS 擅长多语言克隆还能听懂「慢一点说」「用耳语」这种自然语言指令没有显卡的可以选 Kokoro82M模型CPU就能跑。接入 Claude Code 只需一行claude mcp add voicebox --transport http --url http://127.0.0.1:17493/mcp接上之后Claude Code 能用你克隆的声音说「测试通过可以合并」。还能给不同 Agent 绑定不同声音听声音就能分辨是哪个 Agent 在汇报。还有一个「人格化」功能给声音绑一段人设描述比如「毒舌的代码审查官」之后所有输出文本都会先按人设改写再合成语音。说话风格也是你定的。macOS 和 Windows 都有安装包苹果 M 芯片上速度比通用方案快不少NVIDIA 显卡自动走 CUDA。缺点是 Qwen3-TTS 模型文件有几个 G首次下载得等。项目地址https://pan.quark.cn/s/6f22fd03bfd1GitHub 项目地址https://github.com/jamiepine/voicebox