How do I install DeepSeek-V3 — Open-Weight 671B MoE Model with GPT-4o Quality?

Visit the asset page on TokRepo and click "Copy for agent" to get the installation instructions. Most assets can be installed with a single command.

DeepSeek-V3 — Open-Weight 671B MoE Model with GPT-4o Quality

Name: DeepSeek-V3 — Open-Weight 671B MoE Model with GPT-4o Quality
Author: DeepSeek

简介

DeepSeek-V3 是 6710 亿参数的 mixture-of-experts 模型，让 DeepSeek 走向世界 —— 多数 benchmark 上跟 GPT-4o 持平，每 token 只激活 370 亿参数。权重 MIT 开源（下载即跑）。托管 API 每百万输入 token $0.27 —— 比 GPT-4o 便宜约 10 倍。适合本来要用 GPT-4o 的成本敏感生产场景。兼容 DeepSeek API（OpenAI 兼容）、Ollama / vLLM / llama.cpp 本地、AWS Bedrock。装机时间 2 分钟。

托管 API（OpenAI 兼容）

from openai import OpenAI

client = OpenAI(
    base_url="https://api.deepseek.com/v1",
    api_key=os.environ["DEEPSEEK_API_KEY"],
)

response = client.chat.completions.create(
    model="deepseek-chat",  # DeepSeek-V3 别名
    messages=[{"role": "user", "content": "Compare LFP vs NMC battery chemistries"}],
    temperature=0.3,
)

print(response.choices[0].message.content)

任何 OpenAI SDK 代码 drop-in 替换 —— 切 base_url 和 model，其他全保留（工具使用、JSON 模式、流式）。

本地 Ollama

# 拉量化版本（完整 671B 约 700GB！）
ollama pull deepseek-v3:8b      # ~5GB，8B 蒸馏
ollama pull deepseek-v3:32b     # ~20GB，32B 蒸馏
ollama pull deepseek-v3:671b    # ~700GB，完整 BF16，需要 8× H100

多数个人用户用 8B 或 32B 蒸馏版本 —— 在爱好者硬件成本上保留了 V3 大部分推理能力。

本地 vLLM（生产）

pip install vllm
python -m vllm.entrypoints.openai.api_server \
  --model deepseek-ai/DeepSeek-V3 \
  --tensor-parallel-size 8 \
  --gpu-memory-utilization 0.95

完整模型需要 8× H100（或等效约 640GB GPU 内存）。API 端点 OpenAI 兼容。

价格快照

来源	输入 $/1M tok	输出 $/1M tok
DeepSeek API	$0.27	$1.10
OpenRouter	$0.27	$1.10
GPT-4o（对比）	$2.50	$10.00
Claude 3.5 Sonnet（对比）	$3.00	$15.00
本地（vLLM）	$0（硬件之后）	$0

FAQ

Q: DeepSeek-V3 免费吗？ A: 权重：MIT 开源免费。托管 API：付费但便宜（约 $0.27/1M 输入）。本地推理：硬件成本之后免费。多数用户先用托管 API 做原型，量大了切本地或自托管。

Q: V3 真的跟 GPT-4o 一样好吗？ A: 多数 benchmark（MMLU / GPQA / HumanEval / MATH）差 1-3 分。某些专门任务（视觉、最新新闻）GPT-4o 训练更新或多模态更强，V3 落后。通用推理 + 代码差距很小。

Q: 有隐私顾虑吗？ A: DeepSeek 托管 API 按隐私政策存 prompt。敏感工作负载在本地或尊重隐私的托管（Together / Fireworks / 自己的 vLLM）跑。MIT 许可证让自托管完全合法。

DeepSeek-V3 — Open-Weight 671B MoE Model with GPT-4o Quality

这个资产可以被 Agent 直接读取和安装

简介

托管 API（OpenAI 兼容）

本地 Ollama

本地 vLLM（生产）

价格快照

FAQ

来源与感谢

讨论

相关资产

DeepSeek-R1 — Open-Weight Reasoning Model Rivaling OpenAI o1

DeepSeek Coder — Code-Specialized Model for Local Inference

Fireworks Inference — 100+ Open Models on OpenAI-Compat API

Langfuse Self-Hosting — Production Docker Compose Stack