什么是 Moshi?
Moshi 是 Kyutai 开源的实时语音 AI 引擎,支持全双工对话、200ms 延迟、情感识别和本地运行。
一句话总结:开源实时语音 AI,全双工对话 200ms 延迟,支持打断和情感识别,本地运行,8k+ GitHub stars。
适合人群:构建语音优先 AI 应用的开发者。
核心功能
1. 全双工对话
支持打断和重叠语音,如自然对话。
2. 200ms 延迟
端到端超低延迟,无需云端。
3. 情感与语气
理解并生成耳语、笑声、犹豫等。
4. 本地部署
NVIDIA GPU、Apple MLX、浏览器多平台支持。
常见问题
Q: 和 OpenAI 语音模式比较? A: Moshi 开源本地运行,OpenAI 云端闭源。延迟相当。
Q: 支持中文吗? A: 目前英文优先,多语言开发中。
来源与致谢
kyutai-labs/moshi — 8k+ stars, Apache 2.0