简介
Cartesia 嗓音克隆从 5-30 秒音频样本创建高保真自定义嗓音 —— 口音、音色、节奏都保留。嗓音存到账户库、可版本化、团队成员可共享。平台在克隆真人前强制同意声明 —— 防滥用。适合应用里的角色嗓音、品牌客服嗓音、自定义旁白的有声书。兼容 REST 上传、Python/JS SDK。每个嗓音装机时间 5 分钟。
上传 + 克隆嗓音
from cartesia import Cartesia
client = Cartesia(api_key=os.environ["CARTESIA_API_KEY"])
with open("narrator-sample.wav", "rb") as f:
voice = client.voices.clone(
clip=f,
name="品牌旁白 — Sarah",
description="温暖 30 出头美国女性。用于 TokRepo 产品演示视频。",
mode="similarity", # "similarity"(更贴源)| "stability"(更自然)
enhance=True, # 训练前自动降噪
)
print(voice["id"])用克隆嗓音
audio = client.tts.bytes(
model_id="sonic-2",
voice_id=voice["id"],
transcript="Welcome to TokRepo. Let's walk through what's new this week.",
output_format={"container": "mp3"},
)嗓音库管理
# 列账户所有嗓音
voices = client.voices.list()
for v in voices:
print(v["id"], v["name"], v["is_owner"], v["is_starred"])
# 改元数据
client.voices.update(voice["id"], name="品牌旁白 — Sarah (v2)", description="...")
# 删(清理无用)
client.voices.delete(voice["id"])源音频最佳实践
| 方面 | 建议 |
|---|---|
| 长度 | 10-30 秒(<10 相似度降;>30 不再涨) |
| 内容 | 涵盖韵律变化 —— 疑问、陈述、感叹 |
| 背景 | 安静房间或提前降噪 |
| 格式 | WAV 16-bit 24kHz+(mp3 也行但有损可能渗入) |
| 避免 | 音乐、片中多说话人、重混响、极致音频压缩 |
同意与政策
Cartesia 要求声明源嗓音是你的或你有嗓音所有者书面授权。平台监控滥用 —— 未经同意克隆公众人物可销户。商用品牌嗓音跟法务团队留好艺人授权文件。
FAQ
Q: similarity vs stability 模式? A: Similarity 贴源更近 —— 名人嗓音角色工作最佳。Stability 平滑变化 —— 长篇旁白更好(源 artifact 会累积)。生产默认 stability,除非特别想要源相似度。
Q: 能在跟源不同的语言克隆吗? A: 能 —— 克隆跨语言。10 秒英文源片段可合成保留说话人嗓音特征的西/法语输出。口音迁移准确度因人而异,用代表内容测。
Q: 嗓音库配额多大? A: 免费档 3 个嗓音。Pro 50 个。Scale 500+。克隆嗓音占名额;预置嗓音不占。删无用嗓音回收名额。