简介
DeepSeek-R1 是开源权重的推理模型,在 AIME / MATH / GPQA / Codeforces 上达到 o1 级别,同时把完整 chain-of-thought 推给用户。蒸馏的小版本(1.5B / 7B / 32B / 70B)让消费级硬件上跑本地推理变得现实。MIT 许可证,完整权重公开。适合需要推理模型又要开源权重的硬推理任务(数学、科学、复杂代码)。兼容 DeepSeek API / Ollama(蒸馏)/ vLLM / llama.cpp。装机时间 2 分钟。
托管 API
from openai import OpenAI
client = OpenAI(
base_url="https://api.deepseek.com/v1",
api_key=os.environ["DEEPSEEK_API_KEY"],
)
response = client.chat.completions.create(
model="deepseek-reasoner", # R1
messages=[{"role": "user", "content":
"Prove that the square root of 2 is irrational"}],
)
# R1 流式输出推理 + 最终答案
for choice in response.choices:
print("REASONING:", choice.message.reasoning_content)
print("ANSWER:", choice.message.content)不像 o1,R1 的推理过程可见 —— 对调试、教育、信任有用。
本地 Ollama(蒸馏)
ollama pull deepseek-r1:1.5b # ~1GB,笔记本上能跑
ollama pull deepseek-r1:7b # ~5GB
ollama pull deepseek-r1:14b # ~9GB
ollama pull deepseek-r1:32b # ~20GB,M2 Max 级别
ollama pull deepseek-r1:70b # ~40GB,强服务器7B 蒸馏版在竞赛数学上常常胜过 GPT-4o,单张 4090 上免费且快。
R1 vs V3 怎么选
| 任务 | 选 |
|---|---|
| 数学证明、竞赛题 | R1 |
| 逐步调试 | R1 |
| 快速闲聊、摘要 | V3(更便宜、更快) |
| 工具使用重的 agent | V3(R1 工具支持较弱) |
| 需要可审计 CoT | R1 |
价格
| 来源 | 输入 $/1M tok | 输出 $/1M tok |
|---|---|---|
| DeepSeek API | $0.55 | $2.19 |
| OpenAI o1(对比) | $15.00 | $60.00 |
| OpenAI o1-mini(对比) | $3.00 | $12.00 |
| 本地蒸馏 | $0 | $0 |
FAQ
Q: 为啥 R1 显示推理过程而 o1 隐藏? A: DeepSeek 公开了完整 RL 训练方法。可见 CoT 是价值主张的一部分 —— 可审计、可调试、可教育。OpenAI 把 o1 的 CoT 当成竞争壁垒。
Q: R1 比 V3 慢多少? A: R1 在最终答案前多花 token 推理 —— 通常输出 token 多 3-10 倍,同等基础设施下延迟 3-10 倍。价格差反映了这个。
Q: R1 蒸馏版本是从零训练的吗?
A: 不是 —— 从完整 R1 知识蒸馏进 Llama / Qwen 基础模型。7B 蒸馏是 Llama-3.1-8B + R1 distillation,32B 是 Qwen-2.5-32B + R1 distillation 等。性能跟基础模型有取舍。