简介
Cartesia Sonic 是基于状态空间模型(不是 transformer)的生产 TTS —— 首音频 75ms,商用 TTS 里最低。100+ 预置嗓音、5 秒样本即时克隆、流式 WebSocket API、15 种语言、可控语速和情感。适合 TTS 延迟主导往返预算的语音 agent、实时游戏、快速响应 IVR、多语言客服。兼容官方 Python SDK、REST、WebSocket;LiveKit / Vapi 内置插件。装机时间 5 分钟。
基础合成(单音频 buffer)
from cartesia import Cartesia
client = Cartesia(api_key=os.environ["CARTESIA_API_KEY"])
audio = client.tts.bytes(
model_id="sonic-2",
voice_id="a0e99841-438c-4a64-b679-ae501e7d6091", # "Helpful Woman"
transcript="Welcome back to TokRepo. You have three new asset notifications.",
output_format={"container": "mp3", "sample_rate": 44_100},
language="en",
)
with open("welcome.mp3", "wb") as f:
f.write(audio)流式 WebSocket(最低延迟)
import asyncio
import sounddevice as sd
import numpy as np
async def stream_tts(text: str):
ws = await client.tts.websocket()
audio_chunks = []
async for chunk in ws.send(
model_id="sonic-2",
voice_id="a0e99841-438c-4a64-b679-ae501e7d6091",
transcript=text,
output_format={"container": "raw", "encoding": "pcm_s16le", "sample_rate": 22_050},
):
audio = np.frombuffer(chunk.audio, dtype=np.int16)
sd.play(audio, 22_050) # 边来边播
await ws.close()
asyncio.run(stream_tts("Hi there! What can I help with today?"))嗓音控制(语速 + 情感)
audio = client.tts.bytes(
model_id="sonic-2",
voice_id="a0e99841-438c-4a64-b679-ae501e7d6091",
transcript="Thank you for your patience — we'll have an answer for you soon.",
voice={"__experimental_controls": {"speed": "slow", "emotion": ["positivity:high", "curiosity"]}},
output_format={"container": "mp3"},
)跟同行延迟对比(2026 年 5 月,p50)
| 提供商 | 首音频时间 |
|---|---|
| Cartesia Sonic | 75ms |
| Deepgram Aura | ~250ms |
| ElevenLabs Turbo v2.5 | ~280ms |
| OpenAI TTS-1 | ~400ms |
| Google Cloud TTS | ~500ms |
成本(2026 年 5 月)
- 按用量:$0.025 / 1,000 字符
- 免费档:10,000 字符/月
- Pro:100,000 字符/月 $5
FAQ
Q: Cartesia 为啥比 transformer TTS 快这么多? A: 状态空间模型推理成本对序列长度线性(transformer 是平方)。短 prompt 差距小;长生成 Cartesia 真流式生成,每帧时间恒定。75ms TTFA 就是架构红利。
Q: 5 秒嗓音克隆效果如何? A: 英语意外地好 —— 音色、口音、节奏可识别。非英语源样本需要 ~10 秒达到同质量。高保真角色嗓音用 30 秒源片段走 Voice Design endpoint。
Q: 生产环境 Cartesia vs ElevenLabs? A: Cartesia 延迟赢 200+ms —— 语音 agent 必选。ElevenLabs 长篇旁白更自然、语言覆盖更广(32 vs 15)。聊天式语音 agent → Cartesia。有声书 → ElevenLabs。