Configs2026年4月7日·1 分钟阅读

Moshi — Real-Time AI Voice Conversation Engine

Open-source real-time voice AI by Kyutai. Full-duplex speech conversation with 200ms latency, emotion recognition, and on-device processing. Apache 2.0 licensed.

AI
AI Open Source · Community
快速使用

先拿来用,再决定要不要深挖

这里应该同时让用户和 Agent 知道第一步该复制什么、安装什么、落到哪里。

pip install moshi
python -m moshi.server

浏览器打开 localhost:8998 开始实时语音对话。

什么是 Moshi?

Moshi 是 Kyutai 开源的实时语音 AI 引擎,支持全双工对话、200ms 延迟、情感识别和本地运行。

一句话总结:开源实时语音 AI,全双工对话 200ms 延迟,支持打断和情感识别,本地运行,8k+ GitHub stars。

适合人群:构建语音优先 AI 应用的开发者。

核心功能

1. 全双工对话

支持打断和重叠语音,如自然对话。

2. 200ms 延迟

端到端超低延迟,无需云端。

3. 情感与语气

理解并生成耳语、笑声、犹豫等。

4. 本地部署

NVIDIA GPU、Apple MLX、浏览器多平台支持。

常见问题

Q: 和 OpenAI 语音模式比较? A: Moshi 开源本地运行,OpenAI 云端闭源。延迟相当。

Q: 支持中文吗? A: 目前英文优先,多语言开发中。

来源与致谢

kyutai-labs/moshi — 8k+ stars, Apache 2.0

讨论

登录后参与讨论。
还没有评论,来写第一条吧。