Skills2026年5月11日·1 分钟阅读

Cartesia Voice Cloning — Build a Voice Library from Audio

Cartesia voice cloning creates a custom voice from a 5-30 second sample. Upload, save, version, share within your account. Consent built in.

Agent 就绪

这个资产可以被 Agent 直接读取和安装

TokRepo 同时提供通用 CLI 命令、安装契约、metadata JSON、按适配器生成的安装计划和原始内容链接,方便 Agent 判断适配度、风险和下一步动作。

Stage only · 17/100Stage only
Agent 入口
任意 MCP/CLI Agent
类型
Skill
安装
Stage only
信任
信任等级:New
入口
Asset
通用 CLI 安装命令
npx tokrepo install e5dd6c2d-fc3d-485a-842d-3338e266e5ed

简介

Cartesia 嗓音克隆从 5-30 秒音频样本创建高保真自定义嗓音 —— 口音、音色、节奏都保留。嗓音存到账户库、可版本化、团队成员可共享。平台在克隆真人前强制同意声明 —— 防滥用。适合应用里的角色嗓音、品牌客服嗓音、自定义旁白的有声书。兼容 REST 上传、Python/JS SDK。每个嗓音装机时间 5 分钟。


上传 + 克隆嗓音

from cartesia import Cartesia
client = Cartesia(api_key=os.environ["CARTESIA_API_KEY"])

with open("narrator-sample.wav", "rb") as f:
    voice = client.voices.clone(
        clip=f,
        name="品牌旁白 — Sarah",
        description="温暖 30 出头美国女性。用于 TokRepo 产品演示视频。",
        mode="similarity",   # "similarity"(更贴源)| "stability"(更自然)
        enhance=True,        # 训练前自动降噪
    )

print(voice["id"])

用克隆嗓音

audio = client.tts.bytes(
    model_id="sonic-2",
    voice_id=voice["id"],
    transcript="Welcome to TokRepo. Let's walk through what's new this week.",
    output_format={"container": "mp3"},
)

嗓音库管理

# 列账户所有嗓音
voices = client.voices.list()
for v in voices:
    print(v["id"], v["name"], v["is_owner"], v["is_starred"])

# 改元数据
client.voices.update(voice["id"], name="品牌旁白 — Sarah (v2)", description="...")

# 删(清理无用)
client.voices.delete(voice["id"])

源音频最佳实践

方面 建议
长度 10-30 秒(<10 相似度降;>30 不再涨)
内容 涵盖韵律变化 —— 疑问、陈述、感叹
背景 安静房间或提前降噪
格式 WAV 16-bit 24kHz+(mp3 也行但有损可能渗入)
避免 音乐、片中多说话人、重混响、极致音频压缩

同意与政策

Cartesia 要求声明源嗓音是你的或你有嗓音所有者书面授权。平台监控滥用 —— 未经同意克隆公众人物可销户。商用品牌嗓音跟法务团队留好艺人授权文件。


FAQ

Q: similarity vs stability 模式? A: Similarity 贴源更近 —— 名人嗓音角色工作最佳。Stability 平滑变化 —— 长篇旁白更好(源 artifact 会累积)。生产默认 stability,除非特别想要源相似度。

Q: 能在跟源不同的语言克隆吗? A: 能 —— 克隆跨语言。10 秒英文源片段可合成保留说话人嗓音特征的西/法语输出。口音迁移准确度因人而异,用代表内容测。

Q: 嗓音库配额多大? A: 免费档 3 个嗓音。Pro 50 个。Scale 500+。克隆嗓音占名额;预置嗓音不占。删无用嗓音回收名额。


🙏

来源与感谢

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产