国内 AI API 平替 — 不出国、不用 VPN、人民币付费的 OpenAI / Claude 替代
十个国内 AI API 与网关:DeepSeek-V3 / R1 / Coder、Qwen、ChatGLM、Kimi(Moonshot)、MiniMax,加 One API / LiteLLM Proxy / Cherry Studio 做路由和兜底。人民币结算、可开票、兼容 OpenAI SDK、无需 VPN。
这个 pack 解决什么
国内团队上 AI 功能,每次都撞同样三堵墙:(1) OpenAI / Anthropic 注册流程要海外卡 + 海外 IP — 个人项目能蒙,公司层面非常痛。(2) 在国内裸调 api.openai.com / api.anthropic.com 不稳定,必须挂代理,而企业代理本身又有合规问题。(3) 财务要增值税专票,海外 SaaS 不开。
本 pack 选 10 个资产把这三堵墙一次性补齐,且不牺牲 GPT-4o 级质量。分三档:前沿档(DeepSeek-V3 / R1 / Coder)、国产厂商替代档(Qwen、ChatGLM、Kimi、MiniMax)、把厂商选择藏在一个 OpenAI 兼容端点后面的网关档(One API、LiteLLM Proxy、Cherry Studio)。装完你的代码基本不变 — 只改 base_url 和 model — 财务每月都能拿到发票。
推荐安装顺序 — 先免费 / 便宜,再上质量,最后接路由
- DeepSeek-V3 — 671B MoE 开源大模型,GPT-4o 级质量(id 2832)。从这里起步。托管 API 每百万输入 token 约 $0.27 — 比 GPT-4o 便宜 10 倍 — 在 platform.deepseek.com 用人民币结算。OpenAI 兼容:
base_url切https://api.deepseek.com/v1、model设deepseek-chat、发版。权重 MIT 开源,将来想自托管随时切。 - Qwen Code — 通义千问的终端编码 Agent(id 3022)。阿里云 DashScope 托管 Qwen2.5 / Qwen3,OpenAI 兼容端点、人民币结算。Qwen Code 是大多数国内开发者用来把 Qwen 接入编码循环的 CLI 壳子,不用自己写 SDK 胶水。API 和这个 CLI 第一天就一起装。
- ChatGLM — 清华 KEG 开源双语聊天模型(id 2264)。智谱 / 清华那条线的经典。bigmodel.cn 上的 GLM-4 系列人民币结算、支持发票,是非 DeepSeek 选择里最强的双语客户面向工作负载选项 — 翻译、客服、中英混合内容审核。
- oh-my-kimi — Kimi 的证据门控 Agent 运行时(id 3643)。Moonshot 的 Kimi 是国内长上下文冠军(200K+ token、文档级理解)。处理"把整份合同 / 招标书 / 手册扔进去"这类 GPT-4o 算不过账的工作。oh-my-kimi 在外面套一层 agent runtime,让模型不只是个聊天框。
- MiniMax-MCP — MiniMax 官方 MCP 服务器(id 3932)。MiniMax 强在语音和多模态(TTS、声音克隆、视频转文本)。官方 MCP 服务器给任何支持 MCP 的客户端(Claude Desktop / Cursor / Cline)一个工具表面来调这些模型。需要文本以外能力时再装。
- DeepSeek-R1 — 对标 OpenAI o1 的开源推理模型(id 2833)。V3 的推理兄弟。同一套 API 形状,不同 model 别名(
deepseek-reasoner)。硬推理调用走这里、其他都走 V3 — 第 8 步的网关让这只是一行配置。 - DeepSeek Coder — 代码专用模型,本地推理(id 2834)。更小、专做代码的分支 — 工作站 GPU 就能跑,把代码补全 / IDE 内重构的网络跳直接砍掉。放开发者电脑上,不放生产网关里。
- One API — 统一 LLM API 网关(Docker)(id 3821)。本 pack 里最重要的一装。One API 是开源、国内能用的OpenAI 兼容网关 — 它讲 OpenAI 的请求 / 响应格式,把调用路由给 DeepSeek、Qwen、ChatGLM、Kimi、MiniMax、Azure、Anthropic 等几十家。Docker 跑在你自己的 VPC 里,代码指过去,换厂商变成一行配置而不是一次代码改动。下游厂商的人民币结算不受影响。
- LiteLLM Proxy — 100+ LLM API 统一网关(id 2789)。西方做的等价物。如果团队是 Python 栈、想要开箱即用的 per-key 成本追踪、或者要更成熟的 failover 和限流逻辑,用这个替代 One API。形状一样 — 一个 OpenAI 兼容端点,后面挂多厂商。
- Cherry Studio Custom Models — BYOK 接任何 LLM 厂商(id 2821)。桌面客户端。在你把任何一项接进生产之前,先把 key 粘到 Cherry Studio 里,在真实 prompt 上验证模型回答的方式符合你应用的预期。这是在你 commit 路由决策之前对比 DeepSeek vs Qwen vs Kimi 最便宜的方法。
它们怎么协同
[ 前沿档 ] [ 厂商替代档 ] [ 本地兜底 ]
DeepSeek-V3(通用) Qwen(双语 / 阿里系) DeepSeek Coder(笔记本)
DeepSeek-R1(推理) ChatGLM(智谱 / 清华)
│ Kimi(长上下文 / Moonshot)
│ MiniMax(语音 / 多模态)
│ │
└────────── One API ───────────┤
(Docker、OpenAI 兼容)
│
LiteLLM Proxy(备选路由层)
│
你的应用代码
│
Cherry Studio(开发期肉眼验证)
主干是 DeepSeek-V3 + One API + LiteLLM Proxy + Cherry Studio。这四件套覆盖通用工作负载、把厂商选择藏在一个端点后面、给你一个带成本追踪的路由层、给一个桌面客户端做肉眼校对。Qwen / ChatGLM / Kimi / MiniMax / DeepSeek-R1 / Coder 都是网关后面的备选 backend,按工作负载需要的特长加进来。
上线前要先想清楚的取舍
- 上下文长度。 Kimi 领先(200K+),Qwen 和 DeepSeek 多数套餐 64K-128K,GLM-4 约 128K。工作负载是"总结 80 页 PDF"时,Kimi 是国内唯一不用分块的答案。
- 中英能力差异。 五家都能讲英语。DeepSeek 和 Qwen 在英文 benchmark 上最接近 GPT-4o;GLM 和 Kimi 在创意英语上稍弱、在中文上反超。用你自己的 prompt 测,benchmark 均值不预测你的工作负载。
- 计价单位。 多数厂商在 dashboard 上按人民币百万 token 报价,在公开 API 页又给一个美元价。两个数字不一定一对一 — 有时候人民币更便宜,有时候不。永远把用量写进自己的账本,对账不要只信 dashboard。
- 限速和并发。 前沿模型新账号通常起步是 60 RPM / 1 并发。生产工作负载要申请提额 — 有时候要打电话。留一周提前量,不要在能上 10 RPS 的功能上线当天才申请。
- 推理模型的延迟。 R1 / GLM-4-Reasoning / Qwen-QwQ 拿速度换质量。一次推理调用 30-90 秒 — 必须接流式响应或异步队列,不要让它阻塞同步请求。
常见踩坑
- 把厂商 SDK 写死。 全场
from openai import OpenAI然后只切base_url,你保留了可移植性。直接import dashscope/import zhipuai,你就和一家厂商绑死了、走不了网关。所有厂商都公开 OpenAI 兼容端点 — 用 OpenAI SDK 调它们。 - 把 ICP / 备案当 API 问题。 备案是给国内托管的对公网网站用的、不是给 API 调用用的。境外服务器调 DeepSeek API 不需要备案。当你的域名是
*.cn/ 服务国内用户时才需要 ICP。这两件事分开看。 - 忘记 token 计数不通用。 OpenAI 的 tokenization(tiktoken / cl100k)和 DeepSeek / Qwen / GLM 不一样。1000 字中文 prompt 在 OpenAI 算 350 token,在 DeepSeek 可能是 280。用 tiktoken 估的成本会差 10-30% — 要做预算时永远用厂商自己的 tokenizer。
- 拿生产 key 直接打生产端点测试。 本 pack 里每家厂商都有 sandbox / 测试 key,用它。否则你 CI 第一次卡死循环,就是 Qwen-Max 给你出一张 200 块的意外账单。
- 跳过发票流程。 主流厂商(DeepSeek / 阿里云 / 智谱 / Moonshot / MiniMax)都支持发票,但每家流程都不一样。注册当周就让财务提交申请 — 第一张发票要 30 天周期,过期不补开。
- 以为
deepseek-chat永远是 V3。 厂商别名会变。deepseek-chat指向当下的聊天旗舰;今天是 V3、明天可能是 V3.5 / V4。如果你的 eval 依赖某个具体权重,钉死具体版本字符串、不要靠别名。
10 个资产打包就绪
常见问题
DeepSeek vs Qwen 怎么选?
英文偏重的成本敏感工作负载选 DeepSeek-V3、阿里系或双语客户面向工作负载选 Qwen。 DeepSeek 的 API 是当下达到 GPT-4o 级质量最便宜的路径(约 $0.27 / 1M 输入 token),权重 MIT 开源、想自托管随时切。Qwen 的优势在集成深度 — 它原生跑在阿里云 DashScope 上、和你其他云资源同一套账户、双语客户面向 UI 的回答质量最强、Qwen Code CLI 让你不用写 SDK 胶水就有完整编码循环。API only + 英文重 → 先装 DeepSeek。已经在阿里云付计算 / 存储 + 想一家厂商搞定一切 → 先装 Qwen。
API 消费能开增值税专票(发票)吗?
主流厂商都能开,但流程不一样。DeepSeek 在 platform.deepseek.com 账单页按月开 — 公司税号填一次、每月点"申请发票"。阿里云(Qwen)走标准阿里云发票通道 — 账户认证成企业账号之后全自动。智谱(ChatGLM)和 Moonshot(Kimi)首次需要给财务团队发邮件提供公司信息,之后每月自动开。MiniMax 同。第一笔消费到第一张发票留 30 天滞后 — 厂商按月后开。
企业合规要看哪几点?
五件事。 (1) 数据主权 — 确认 API 端点是境内托管;DeepSeek / 阿里云 DashScope / 智谱 / Moonshot / MiniMax 全在境内。(2) Prompt / 响应日志 — 每家厂商隐私政策都说可能记录调用用于安全审查;工作负载含 PII 或商业秘密时,要么发前脱敏、要么谈一个 no-log 企业套餐。(3) 跨境传输 — 应用把非国内用户的数据发给境内 API 时,PIPL 跨境规则适用,要问法务。(4) 算法备案 — 在国内上对公网的生成式 AI 功能时,网信办要求算法备案;这是你的责任、不是模型厂商的。(5) 发票 + 合同 — 确保你签合同的主体和开发票的主体对得上,对不上财务对账就头疼。
响应速度怎么样?
从国内网络看,五家国产厂商对 OpenAI / Anthropic 是降维打击 — 往返完全在国内、跳过国际链路。DeepSeek-V3 和 Qwen 聊天模型首 token 通常 200-500ms 出;GLM-4 和 Kimi 相近。推理模型(DeepSeek-R1 / Qwen-QwQ / GLM-4-Reasoning)慢 — 30-90 秒一次回答,因为它要先生成内部思维链才答 — 这是模型种类的固有属性、不是中国 vs 海外问题。和国内裸调 OpenAI / Anthropic 对比,国产厂商不止更快,是真的能调通。
能直接用 OpenAI SDK 接吗?还是要重写?
保留 OpenAI SDK。 本 pack 里每家厂商都公开 OpenAI 兼容端点,前面再套 One API / LiteLLM Proxy,就给所有厂商一个统一的 OpenAI 兼容端点。实战:装 OpenAI SDK、base_url 指你的网关、model 设网关路由到的那个(deepseek-chat / qwen-max / glm-4 / moonshot-v1-128k 等),剩下的 — chat.completions.create / 流式 / tool use / JSON 模式 — 一行不动。OpenAI 兼容层唯一覆盖不了的是 OpenAI 独有的前沿功能(Realtime API / Assistants API / GPT 图像编辑)。95% 的 LLM 工作负载,SDK 替换就是一行配置。