简介
DeepSeek-V3 是 6710 亿参数的 mixture-of-experts 模型,让 DeepSeek 走向世界 —— 多数 benchmark 上跟 GPT-4o 持平,每 token 只激活 370 亿参数。权重 MIT 开源(下载即跑)。托管 API 每百万输入 token $0.27 —— 比 GPT-4o 便宜约 10 倍。适合本来要用 GPT-4o 的成本敏感生产场景。兼容 DeepSeek API(OpenAI 兼容)、Ollama / vLLM / llama.cpp 本地、AWS Bedrock。装机时间 2 分钟。
托管 API(OpenAI 兼容)
from openai import OpenAI
client = OpenAI(
base_url="https://api.deepseek.com/v1",
api_key=os.environ["DEEPSEEK_API_KEY"],
)
response = client.chat.completions.create(
model="deepseek-chat", # DeepSeek-V3 别名
messages=[{"role": "user", "content": "Compare LFP vs NMC battery chemistries"}],
temperature=0.3,
)
print(response.choices[0].message.content)任何 OpenAI SDK 代码 drop-in 替换 —— 切 base_url 和 model,其他全保留(工具使用、JSON 模式、流式)。
本地 Ollama
# 拉量化版本(完整 671B 约 700GB!)
ollama pull deepseek-v3:8b # ~5GB,8B 蒸馏
ollama pull deepseek-v3:32b # ~20GB,32B 蒸馏
ollama pull deepseek-v3:671b # ~700GB,完整 BF16,需要 8× H100多数个人用户用 8B 或 32B 蒸馏版本 —— 在爱好者硬件成本上保留了 V3 大部分推理能力。
本地 vLLM(生产)
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model deepseek-ai/DeepSeek-V3 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.95完整模型需要 8× H100(或等效约 640GB GPU 内存)。API 端点 OpenAI 兼容。
价格快照
| 来源 | 输入 $/1M tok | 输出 $/1M tok |
|---|---|---|
| DeepSeek API | $0.27 | $1.10 |
| OpenRouter | $0.27 | $1.10 |
| GPT-4o(对比) | $2.50 | $10.00 |
| Claude 3.5 Sonnet(对比) | $3.00 | $15.00 |
| 本地(vLLM) | $0(硬件之后) | $0 |
FAQ
Q: DeepSeek-V3 免费吗? A: 权重:MIT 开源免费。托管 API:付费但便宜(约 $0.27/1M 输入)。本地推理:硬件成本之后免费。多数用户先用托管 API 做原型,量大了切本地或自托管。
Q: V3 真的跟 GPT-4o 一样好吗? A: 多数 benchmark(MMLU / GPQA / HumanEval / MATH)差 1-3 分。某些专门任务(视觉、最新新闻)GPT-4o 训练更新或多模态更强,V3 落后。通用推理 + 代码差距很小。
Q: 有隐私顾虑吗? A: DeepSeek 托管 API 按隐私政策存 prompt。敏感工作负载在本地或尊重隐私的托管(Together / Fireworks / 自己的 vLLM)跑。MIT 许可证让自托管完全合法。