What is Cartesia Sonic TTS — 75ms Time-to-First-Audio?

Cartesia Sonic is a state-space-model TTS with 75ms time-to-first-audio. 100+ voices, 5s cloning, streaming WebSocket. Lowest-latency TTS.

Is Cartesia Sonic TTS — 75ms Time-to-First-Audio free to use?

Yes. Cartesia Sonic TTS — 75ms Time-to-First-Audio is freely available on TokRepo. Check the Source & Thanks section on the asset page for the specific open-source license.

How do I install Cartesia Sonic TTS — 75ms Time-to-First-Audio?

Visit the asset page on TokRepo and click "Copy for agent" to get the installation instructions. Most assets can be installed with a single command.

Cartesia Sonic TTS — 75ms Time-to-First-Audio

简介

Cartesia Sonic 是基于状态空间模型（不是 transformer）的生产 TTS —— 首音频 75ms，商用 TTS 里最低。100+ 预置嗓音、5 秒样本即时克隆、流式 WebSocket API、15 种语言、可控语速和情感。适合 TTS 延迟主导往返预算的语音 agent、实时游戏、快速响应 IVR、多语言客服。兼容官方 Python SDK、REST、WebSocket；LiveKit / Vapi 内置插件。装机时间 5 分钟。

基础合成（单音频 buffer）

from cartesia import Cartesia
client = Cartesia(api_key=os.environ["CARTESIA_API_KEY"])

audio = client.tts.bytes(
    model_id="sonic-2",
    voice_id="a0e99841-438c-4a64-b679-ae501e7d6091",   # "Helpful Woman"
    transcript="Welcome back to TokRepo. You have three new asset notifications.",
    output_format={"container": "mp3", "sample_rate": 44_100},
    language="en",
)

with open("welcome.mp3", "wb") as f:
    f.write(audio)

流式 WebSocket（最低延迟）

import asyncio
import sounddevice as sd
import numpy as np

async def stream_tts(text: str):
    ws = await client.tts.websocket()
    audio_chunks = []
    async for chunk in ws.send(
        model_id="sonic-2",
        voice_id="a0e99841-438c-4a64-b679-ae501e7d6091",
        transcript=text,
        output_format={"container": "raw", "encoding": "pcm_s16le", "sample_rate": 22_050},
    ):
        audio = np.frombuffer(chunk.audio, dtype=np.int16)
        sd.play(audio, 22_050)   # 边来边播
    await ws.close()

asyncio.run(stream_tts("Hi there! What can I help with today?"))

嗓音控制（语速 + 情感）

audio = client.tts.bytes(
    model_id="sonic-2",
    voice_id="a0e99841-438c-4a64-b679-ae501e7d6091",
    transcript="Thank you for your patience — we'll have an answer for you soon.",
    voice={"__experimental_controls": {"speed": "slow", "emotion": ["positivity:high", "curiosity"]}},
    output_format={"container": "mp3"},
)

跟同行延迟对比（2026 年 5 月，p50）

提供商	首音频时间
Cartesia Sonic	75ms
Deepgram Aura	~250ms
ElevenLabs Turbo v2.5	~280ms
OpenAI TTS-1	~400ms
Google Cloud TTS	~500ms

成本（2026 年 5 月）

按用量：$0.025 / 1,000 字符
免费档：10,000 字符/月
Pro：100,000 字符/月 $5

FAQ

Q: Cartesia 为啥比 transformer TTS 快这么多？ A: 状态空间模型推理成本对序列长度线性（transformer 是平方）。短 prompt 差距小；长生成 Cartesia 真流式生成，每帧时间恒定。75ms TTFA 就是架构红利。

Q: 5 秒嗓音克隆效果如何？ A: 英语意外地好 —— 音色、口音、节奏可识别。非英语源样本需要 ~10 秒达到同质量。高保真角色嗓音用 30 秒源片段走 Voice Design endpoint。

Q: 生产环境 Cartesia vs ElevenLabs？ A: Cartesia 延迟赢 200+ms —— 语音 agent 必选。ElevenLabs 长篇旁白更自然、语言覆盖更广（32 vs 15）。聊天式语音 agent → Cartesia。有声书 → ElevenLabs。

Cartesia Sonic TTS — 75ms Time-to-First-Audio

这个资产会安全暂存

简介

基础合成（单音频 buffer）

流式 WebSocket（最低延迟）

嗓音控制（语速 + 情感）

跟同行延迟对比（2026 年 5 月，p50）

成本（2026 年 5 月）

FAQ

来源与感谢

讨论

相关资产

Memorix — Cross-Agent Memory Control Plane

MCP Latency Probe — tools/list p95 Runbook

Helicone Cache — Cut LLM Spend with Drop-In Response Caching

Awesome-Memory-for-Agents — Paper List + Taxonomy