Scripts2026年4月2日·1 分钟阅读

Coqui TTS — Deep Learning Text-to-Speech Engine

Generate speech in 1100+ languages with voice cloning. XTTS v2 streams with under 200ms latency. 44K+ GitHub stars.

TO
TokRepo精选 · Community
快速使用

先拿来用,再决定要不要深挖

这里应该同时让用户和 Agent 知道第一步该复制什么、安装什么、落到哪里。

pip install TTS
# 生成英文语音
tts --text "Hello, welcome to TokRepo." --out_path output.wav

# XTTS v2 中文语音 + 声音克隆
tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 \
    --text "你好,欢迎来到TokRepo。" \
    --speaker_wav reference_voice.wav \
    --language_idx zh-cn \
    --out_path output_zh.wav

简介

Coqui TTS 是最全面的开源语音合成库,拥有 44,900+ GitHub stars,支持 1,100+ 语言。旗舰 XTTS v2 模型仅需 6 秒参考音频即可实现声音克隆,流式延迟低于 200ms。实现了所有主流 TTS 架构(VITS、Tacotron 2、Bark、Tortoise),提供统一的 Python API 和 CLI。

适用于:Python、CUDA GPU、任何需要语音合成的应用。适合为 AI 代理、聊天机器人、无障碍工具或内容创作管线添加语音的开发者。


核心功能

XTTS v2 旗舰模型

支持 16 种语言,6 秒参考音频克隆声音,流式延迟低于 200ms。

丰富的模型库

VITS(超快)、YourTTS(多说话人)、Bark(富表现力)、Tortoise(最高质量)。

流式合成

实时流式输出音频块,适合对话场景。

微调训练

在自己的语音数据上微调模型,打造专属声音。

REST API 服务

一行命令启动 TTS 服务器,HTTP 接口生成语音。


🙏

来源与感谢

Created by Coqui AI. Licensed under MPL-2.0.

TTS — ⭐ 44,900+

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产