How do I install Cartesia Voice Cloning — Build a Voice Library from Audio?

Visit the asset page on TokRepo and click "Copy for agent" to get the installation instructions. Most assets can be installed with a single command.

Cartesia Voice Cloning — Build a Voice Library from Audio

简介

Cartesia 嗓音克隆从 5-30 秒音频样本创建高保真自定义嗓音 —— 口音、音色、节奏都保留。嗓音存到账户库、可版本化、团队成员可共享。平台在克隆真人前强制同意声明 —— 防滥用。适合应用里的角色嗓音、品牌客服嗓音、自定义旁白的有声书。兼容 REST 上传、Python/JS SDK。每个嗓音装机时间 5 分钟。

上传 + 克隆嗓音

from cartesia import Cartesia
client = Cartesia(api_key=os.environ["CARTESIA_API_KEY"])

with open("narrator-sample.wav", "rb") as f:
    voice = client.voices.clone(
        clip=f,
        name="品牌旁白 — Sarah",
        description="温暖 30 出头美国女性。用于 TokRepo 产品演示视频。",
        mode="similarity",   # "similarity"（更贴源）| "stability"（更自然）
        enhance=True,        # 训练前自动降噪
    )

print(voice["id"])

用克隆嗓音

audio = client.tts.bytes(
    model_id="sonic-2",
    voice_id=voice["id"],
    transcript="Welcome to TokRepo. Let's walk through what's new this week.",
    output_format={"container": "mp3"},
)

嗓音库管理

# 列账户所有嗓音
voices = client.voices.list()
for v in voices:
    print(v["id"], v["name"], v["is_owner"], v["is_starred"])

# 改元数据
client.voices.update(voice["id"], name="品牌旁白 — Sarah (v2)", description="...")

# 删（清理无用）
client.voices.delete(voice["id"])

源音频最佳实践

方面	建议
长度	10-30 秒（<10 相似度降；>30 不再涨）
内容	涵盖韵律变化 —— 疑问、陈述、感叹
背景	安静房间或提前降噪
格式	WAV 16-bit 24kHz+（mp3 也行但有损可能渗入）
避免	音乐、片中多说话人、重混响、极致音频压缩

同意与政策

Cartesia 要求声明源嗓音是你的或你有嗓音所有者书面授权。平台监控滥用 —— 未经同意克隆公众人物可销户。商用品牌嗓音跟法务团队留好艺人授权文件。

FAQ

Q: similarity vs stability 模式？ A: Similarity 贴源更近 —— 名人嗓音角色工作最佳。Stability 平滑变化 —— 长篇旁白更好（源 artifact 会累积）。生产默认 stability，除非特别想要源相似度。

Q: 能在跟源不同的语言克隆吗？ A: 能 —— 克隆跨语言。10 秒英文源片段可合成保留说话人嗓音特征的西/法语输出。口音迁移准确度因人而异，用代表内容测。

Q: 嗓音库配额多大？ A: 免费档 3 个嗓音。Pro 50 个。Scale 500+。克隆嗓音占名额；预置嗓音不占。删无用嗓音回收名额。

Cartesia Voice Cloning — Build a Voice Library from Audio

这个资产会安全暂存

简介

上传 + 克隆嗓音

用克隆嗓音

嗓音库管理

源音频最佳实践

同意与政策

FAQ

来源与感谢

讨论

相关资产

OpenVoice — Instant Voice Cloning with Tone and Style Control

Cartesia Streaming WebSocket — Full-Duplex Voice Agent TTS

GPT-SoVITS — Few-Shot Voice Cloning and Text-to-Speech

Voicebox — Open-Source AI Voice Studio