什么是 LitServe?
LitServe 是 Lightning AI 出品的高性能 AI 模型服务引擎,在 FastAPI 基础上增加批处理、流式输出、GPU 管理和自动扩缩。
一句话总结:LitServe 是快速 AI 模型服务引擎,内置批处理、流式输出、GPU 自动扩缩和多模型支持。
核心功能
1. 自动批处理
多请求合并为一次 GPU 推理。
2. 流式响应
逐 token 流式输出。
3. 多 GPU 自动扩缩
自动检测和分配 GPU 资源。
4. 多模型端点
一个服务器部署多个模型。
5. OpenAI 兼容
支持 /v1/chat/completions 标准接口。
常见问题
Q: 和 vLLM 比较? A: vLLM 专注 LLM,LitServe 支持任何模型(视觉、音频、表格)。
Q: 生产就绪? A: 是,Lightning AI 出品,含健康检查和指标监控。
来源与致谢
- GitHub: Lightning-AI/LitServe (3k+ stars)