国内 AI 编程主力栈 — Cursor/Codex 不顺时的最佳替代
10 件套,给国内程序员搭一套不依赖 ChatGPT/Cursor 的 AI 编程栈:DeepSeek + Qwen + Kimi 做模型层,Cherry Studio 做桌面 chat 客户端,One API / LiteLLM 做统一网关,Tabby / Ollama 给完全断网的内网团队,外加 Continue 和 DeepSeek 原生 CLI — 全部支持人民币付款、无需翻墙。
这个 pack 包含什么
这是一个在国内真实工作环境下能跑的 AI 编程栈 — 给每周都被同样三堵墙撞回来的工程师:Cursor 和 Codex 注册要外国手机号、OpenAI / Anthropic API 在网络层会被间歇性阻断、公司防火墙 + 只能微信/支付宝付款让国外 SaaS 直接走不通。本 pack 不是这些工具的「绕路方案」,而是国内原生替代:建立在国内模型厂(DeepSeek / 阿里通义千问 / 月之暗面 Kimi)+ 可自托管网关 + IDE 插件之上。
每一项都满足三条铁律:人民币可付费或可自托管、国内一般网络无需 VPN 即可访问、质量真的能当日常编程助手用 — 而不只是「能跑通」。如果你已经把 Cursor 配好且不想换,这不是你的 pack;如果你拿的是公司发的本本、连外网都过不去,这是你唯一能上线的 pack。
推荐安装顺序
- DeepSeek TUI (id: 3142) — 先装它,因为 DeepSeek-V3 / R1 是目前国产模型里代码质量最高 + RMB 计费的 API,TUI 是一个单 binary 终端 agent,能在你连其他东西之前先证明 API key 可用。
npm i -g deepseek-tui,从platform.deepseek.com复制 key,30 秒拿到回复。 - Qwen Code (id: 3022) — 阿里官方的 Qwen 终端编码 agent。第二个装,因为 Qwen-Max / Qwen3-Coder 是 DeepSeek 容量被限流时最强的备份模型,正式写脚本前先把备份模型接好。
npm i -g @qwen-code/qwen-code,/auth输入 DashScope(bailian.console.aliyun.com)的 key。 - oh-my-kimi (id: 3643) — 月之暗面的 Kimi K2 在国产模型里长上下文窗口最稳定(1M token 真的能用),oh-my-kimi 在 agent 循环里加了证据校验门控。第三个装,把模型层补齐:DeepSeek 日常写码、Qwen 备份、Kimi 给「整库提问」场景。
- Cherry Studio Custom Models (id: 2821) — 开源桌面 chat 客户端(Mac/Win/Linux),支持把任意 OpenAI-compat 端点加成 BYOK provider。第四个装,因为这时你已经有三个模型 provider,需要一个能在对话中途切模型的 chat UI。Cherry Studio 是国内开发者圈的事实标准 — 30K+ star、MIT 协议、无 telemetry。
- One API (id: 3821) — 自托管 LLM API 网关(Docker,Go 写的)。第五个装,因为这时你已经有多个 key(DeepSeek + Qwen + Kimi),团队需要一个统一的 OpenAI-compat URL 在它们之间轮询。One API 是大多数国内团队的首选(33K+ star,中文管理后台)。
- LiteLLM Proxy (id: 2789) — 国际派的另一选项,Python 写的,100+ provider 支持。和 One API 二选一,只在你还需要代理国外 provider(OpenRouter / Together / 反代 Anthropic)+ 要更强成本追踪时才上 LiteLLM。别两个都跑。
- Continue (id: 613) — 开源 IDE 助手(VSCode + JetBrains),指向任意 OpenAI-compat 端点 — 即指向你的 One API 网关,即 IDE 的代码补全和 chat 现在跑在 DeepSeek-Coder 上,每百万 token 几毛钱。
- Tabby (id: 216) — 自托管的 GitHub Copilot 替代品。只在公司禁止外部 API 调用时装(银行、政企、内部 R&D)。Tabby 完全跑在你自己的硬件上,支持 DeepSeek-Coder / Qwen-Coder 权重,给 VSCode + JetBrains 提供 FIM 自动补全。
- Ollama (id: 162) — 本地模型 runtime。装的条件:Mac 32GB+ 统一内存,或工作站有 24GB+ 显存。
ollama pull qwen3:14b或deepseek-r1:7b,Cherry Studio / Continue 就能指向localhost:11434替代任何 API。 - Reasonix (id: 3604) — DeepSeek 原生编码 agent CLI,针对 prompt cache 做了优化(README 称 99%+ 命中率)。最后装,作为高阶玩家的升级 — 用 DeepSeek TUI 一周后想要更低延迟 + 真实仓库上更低账单时再上。
它们怎么协同
国内模型 API (全部 RMB 计费、不需要 VPN)
┌─────────────────┬─────────────────┬─────────────────┐
│ DeepSeek-V3/R1 │ 通义千问 Qwen │ Kimi K2 (1M ctx)│
│(platform.deepseek)│(bailian.aliyun)│(platform.moonshot)│
└────────┬────────┴────────┬────────┴────────┬─────────┘
│ │ │
▼ ▼ ▼
One API / LiteLLM Proxy (Docker,部署在你 VPS)
(统一 OpenAI-compat URL + key 轮询 + 账单日志)
│
┌─────────────────────┼─────────────────────┐
▼ ▼ ▼
DeepSeek TUI / Cherry Studio Continue
Qwen Code / (桌面 chat, (VSCode/JB 内
oh-my-kimi / BYOK 任意 provider) chat + 自动补全)
Reasonix
(终端 agent)
── 完全断网兜底(公司不让连外网) ──
Tabby(自托管 Copilot,跑 DeepSeek-Coder 权重)
Ollama(本地跑 Qwen / DeepSeek-Coder / Yi / GLM)
分水岭是 One API 挂在三个国产 provider 前面。之前你有三个 API key 散在各 .env 文件里,每个工具都得各自适配每个 provider;之后所有工具指向一个 URL,换模型只是改模型名,财务团队看到一份汇总账单。别跳过网关 — 没有它,多模型工作流第二周就崩。
你会遇到的取舍
- DeepSeek vs Qwen vs Kimi — DeepSeek 在代码质量 + 价格上赢(¥0.50-2/M token)。Qwen 在中文文档、多模态、阿里云企业合规上赢。Kimi 在上下文长度上赢(1M 真的能用)。多数团队 DeepSeek 默认、Qwen 做阿里云合规备份、Kimi 给「整库提问」场景。
- One API vs LiteLLM — One API 国产开发者优先(中文管理 UI、支持微信支付计费插件、占用更低)。LiteLLM 国际派优先(成本追踪更强、provider 接入更多、Python 生态)。只用国产 provider,One API 是显而易见的选择。
- Continue vs DeepSeek TUI / Qwen Code — Continue 在 IDE 里(自动补全 + chat 面板)。CLI agent 在终端里、能跑多步重构。互补关系:Continue 给敲代码,CLI agent 给「重构这个模块」。多数工程师两个都跑。
- 云 API vs Tabby vs Ollama — 云 API 最便宜质量最高,但要外部网络。Tabby 中等质量(模型本地)需要 GPU。Ollama 跑笔记本,14B 参数以下质量掉得厉害。只在合规要求或真的有闲置 4090 / M 系列 Pro 时才走本地。
- Cherry Studio vs 模型厂的网页 chat — DeepSeek / Qwen / Kimi 都有免费网页 chat。Cherry Studio 在你想对话中途切模型、本地保存对话历史、接入自己的 RAG 知识库时才有价值。如果你只在浏览器用一个模型,不需要装。
常见踩坑
- 「DeepSeek API 又挂了」 — DeepSeek 在高峰期有数小时容量问题。这正是 One API + Qwen 兜底存在的意义。网关配
priority: 1 deepseek, priority: 2 qwen,多数故障对用户无感。 - JetBrains Continue 插件商店国内慢 — IDE 里安装失败,去
plugins.jetbrains.com(一般可达)下.zip离线装。VSCode 商店走微软 CN 镜像一般没问题。 - 百炼(阿里云)认证流程默认中国手机号 — Qwen API 经 bailian.console.aliyun.com 需要阿里云账号 + 支付宝实名。国外账号团队走 DashScope International(
dashscope-intl.aliyuncs.com)— 端点不同、模型一样、计费实体不同。 - Cherry Studio + 公司代理 — Cherry Studio 默认走系统代理,如果公司代理白名单只放外国域名,DeepSeek 调用会失败。要么把
api.deepseek.com加到代理 bypass,要么在 Cherry Studio 里配置 per-provider 代理覆盖。 - Tabby + 显存 — DeepSeek-Coder-V2-Lite-16B fp16 要 ~24GB 显存,4-bit 量化要 ~12GB。3090 / 4090 单卡够用,4060Ti 16GB 不够。先把硬件量好再向团队承诺「替代 Copilot」。
- One API 挂公网 IP 又不改密码 = key 被偷 — One API 管理后台默认
root/123456。部署第一小时改掉,挂 nginx + basic auth 或塞 VPN 后面。国内开发者论坛已经多次见到 DeepSeek key 被偷一夜烧掉 ¥10K+ 账单的截图。 - 微信/支付宝充值最低门槛 + 发票(fapiao) — DeepSeek 和 Moonshot 充值起步 ¥10-50;个人无所谓,但公司财务团队要发票(普票/专票),从第一天就申请企业账号,别用个人账号充值再切换 — 中途换计费主体浪费一周。
- DeepSeek 思维链开关 — DeepSeek-R1 / V3 thinking 模式会把 reasoning 也算入 token 计费,且响应慢 3-5 倍。日常 chat 关掉,难题再开。在 One API 里建两个虚拟模型 (
deepseek-chat/deepseek-reasoner) 让用户显式选。
10 个资产打包就绪
常见问题
我会翻墙能用 Cursor / Claude,为什么还要换国产栈?
三个原因:(1) 公司本本 + 公司 VPN 早晚和你的个人 VPN 工具冲突,哪天客户会议登不上工具,就是这套栈回本的那天;(2) DeepSeek 和 Qwen 现在代码质量已经真实有竞争力,价格只有海外的 1/10 — 即使翻墙稳定,团队规模一上来成本差异显著;(3) 发票(fapiao)。公司财务报销不了 USD Stripe 账单,RMB 计费的国产模型是唯一可行路径。多数工程师最后两套都跑 — 方便时用海外工具,本套栈作为「永远能用」的兜底。
我公司禁止任何外部 API 调用,这个 pack 还能用哪部分?
云 API 全砍掉,只跑:Tabby(自托管 Copilot,第 8 项)+ Ollama(本地模型 runtime,第 9 项)+ Continue(IDE 插件,第 7 项)指向 Ollama 的 localhost 端点。Cherry Studio(第 4 项)也能指向本地模型。你需要一台 24GB+ 显存的工作站,或 32GB+ 统一内存的 M 系列 Mac。模型推荐:代码用 DeepSeek-Coder-V2-Lite-16B,通用 chat 用 Qwen3-14B。质量低于云端 DeepSeek,但远高于「没 AI」。
整套栈每个工程师每月真实花多少钱?
个人重度日常使用 DeepSeek 为主:¥30-80/月(1-3M token/天)。加上 One API 兜底到 Qwen,再加 ¥20-40。对比 Cursor Pro $20/月(¥150)+ Copilot $10/月(~¥75),还得 VPN 稳定。10 人团队:一台 ¥80/月的 VPS 跑 One API + 共享 DeepSeek+Qwen key pool,通常落在 ¥500-1500/月,对比国际 SaaS 等价方案 ¥6000+。
公司财务要发票,这个栈能开吗?
DeepSeek、阿里云(百炼跑 Qwen)、月之暗面(Kimi)都能开中国增值税发票(普票 / 专票),按需申请,从第一天就用企业账号注册而不是个人账号。One API 和 LiteLLM 是开源自托管,没有 SaaS 账单需要开票。坑:从个人阿里云账号月中切到企业账号很痛(计费实体分开)。先把企业账号建好,再在它下面建开发者 key。
什么任务用什么模型?
代码默认:DeepSeek-V3 (chat) + DeepSeek-Coder (补全) — 2026 年性价比之王。推理 / 难数学 / 重构规划:DeepSeek-R1 或 DeepSeek-V3 thinking 模式。整库提问 / 长文档分析(>200K token):Kimi K2 — 1M 上下文真的能用(多数模型过 64K 就开始掉链子)。多模态 / 视觉 / 阿里云企业原生:Qwen-VL 或 Qwen-Max。断网本地:DeepSeek-Coder-V2-Lite-16B(代码)或 Qwen3-14B(通用)。别选一个模型死磕 — 通过 Cherry Studio 或 One API 在 provider 间切换才是这个栈的精髓。