简介
Coqui TTS 是最全面的开源语音合成库,拥有 44,900+ GitHub stars,支持 1,100+ 语言。旗舰 XTTS v2 模型仅需 6 秒参考音频即可实现声音克隆,流式延迟低于 200ms。实现了所有主流 TTS 架构(VITS、Tacotron 2、Bark、Tortoise),提供统一的 Python API 和 CLI。
适用于:Python、CUDA GPU、任何需要语音合成的应用。适合为 AI 代理、聊天机器人、无障碍工具或内容创作管线添加语音的开发者。
核心功能
XTTS v2 旗舰模型
支持 16 种语言,6 秒参考音频克隆声音,流式延迟低于 200ms。
丰富的模型库
VITS(超快)、YourTTS(多说话人)、Bark(富表现力)、Tortoise(最高质量)。
流式合成
实时流式输出音频块,适合对话场景。
微调训练
在自己的语音数据上微调模型,打造专属声音。
REST API 服务
一行命令启动 TTS 服务器,HTTP 接口生成语音。