Knowledge2026年5月11日·1 分钟阅读

Cartesia Sonic TTS — 75ms Time-to-First-Audio

Cartesia Sonic is a state-space-model TTS with 75ms time-to-first-audio. 100+ voices, 5s cloning, streaming WebSocket. Lowest-latency TTS.

Agent 就绪

这个资产可以被 Agent 直接读取和安装

TokRepo 同时提供通用 CLI 命令、安装契约、metadata JSON、按适配器生成的安装计划和原始内容链接,方便 Agent 判断适配度、风险和下一步动作。

Stage only · 15/100Stage only
Agent 入口
任意 MCP/CLI Agent
类型
Knowledge
安装
Stage only
信任
信任等级:New
入口
Asset
通用 CLI 安装命令
npx tokrepo install 48e00964-c223-46ba-a45e-3ef76fbce082

简介

Cartesia Sonic 是基于状态空间模型(不是 transformer)的生产 TTS —— 首音频 75ms,商用 TTS 里最低。100+ 预置嗓音、5 秒样本即时克隆、流式 WebSocket API、15 种语言、可控语速和情感。适合 TTS 延迟主导往返预算的语音 agent、实时游戏、快速响应 IVR、多语言客服。兼容官方 Python SDK、REST、WebSocket;LiveKit / Vapi 内置插件。装机时间 5 分钟。


基础合成(单音频 buffer)

from cartesia import Cartesia
client = Cartesia(api_key=os.environ["CARTESIA_API_KEY"])

audio = client.tts.bytes(
    model_id="sonic-2",
    voice_id="a0e99841-438c-4a64-b679-ae501e7d6091",   # "Helpful Woman"
    transcript="Welcome back to TokRepo. You have three new asset notifications.",
    output_format={"container": "mp3", "sample_rate": 44_100},
    language="en",
)

with open("welcome.mp3", "wb") as f:
    f.write(audio)

流式 WebSocket(最低延迟)

import asyncio
import sounddevice as sd
import numpy as np

async def stream_tts(text: str):
    ws = await client.tts.websocket()
    audio_chunks = []
    async for chunk in ws.send(
        model_id="sonic-2",
        voice_id="a0e99841-438c-4a64-b679-ae501e7d6091",
        transcript=text,
        output_format={"container": "raw", "encoding": "pcm_s16le", "sample_rate": 22_050},
    ):
        audio = np.frombuffer(chunk.audio, dtype=np.int16)
        sd.play(audio, 22_050)   # 边来边播
    await ws.close()

asyncio.run(stream_tts("Hi there! What can I help with today?"))

嗓音控制(语速 + 情感)

audio = client.tts.bytes(
    model_id="sonic-2",
    voice_id="a0e99841-438c-4a64-b679-ae501e7d6091",
    transcript="Thank you for your patience — we'll have an answer for you soon.",
    voice={"__experimental_controls": {"speed": "slow", "emotion": ["positivity:high", "curiosity"]}},
    output_format={"container": "mp3"},
)

跟同行延迟对比(2026 年 5 月,p50)

提供商 首音频时间
Cartesia Sonic 75ms
Deepgram Aura ~250ms
ElevenLabs Turbo v2.5 ~280ms
OpenAI TTS-1 ~400ms
Google Cloud TTS ~500ms

成本(2026 年 5 月)

  • 按用量:$0.025 / 1,000 字符
  • 免费档:10,000 字符/月
  • Pro:100,000 字符/月 $5

FAQ

Q: Cartesia 为啥比 transformer TTS 快这么多? A: 状态空间模型推理成本对序列长度线性(transformer 是平方)。短 prompt 差距小;长生成 Cartesia 真流式生成,每帧时间恒定。75ms TTFA 就是架构红利。

Q: 5 秒嗓音克隆效果如何? A: 英语意外地好 —— 音色、口音、节奏可识别。非英语源样本需要 ~10 秒达到同质量。高保真角色嗓音用 30 秒源片段走 Voice Design endpoint。

Q: 生产环境 Cartesia vs ElevenLabs? A: Cartesia 延迟赢 200+ms —— 语音 agent 必选。ElevenLabs 长篇旁白更自然、语言覆盖更广(32 vs 15)。聊天式语音 agent → Cartesia。有声书 → ElevenLabs。


🙏

来源与感谢

Built by Cartesia. Docs at docs.cartesia.ai.

cartesia-ai/cartesia-python — official SDK

讨论

登录后参与讨论。
还没有评论,来写第一条吧。

相关资产