多 Agent 框架
CAMEL / LangGraph / DeepAgents / GPT Researcher — 把多个 agent 编成一队上生产的框架。
这个 pack 装了什么
这个 pack 收齐了七个多 agent 框架,是 2026 年团队真在生产里跑的那一批,不是 Twitter 上看着炫但一上量就崩的 demo。四个是头部框架,三个是基于它们封装的研究 / 角色模板。
| # | 资产 | 类型 | 适合场景 |
|---|---|---|---|
| 1 | LangGraph | 状态化框架 | 带 checkpoint 的生产图编排 |
| 2 | CAMEL | 角色扮演框架 | Agent 间对话,学术级 |
| 3 | DeepAgents | 研究框架 | 长任务规划 + sub-agent 派生 |
| 4 | GPT Researcher | 应用 agent | 给主题、出研究报告 |
| 5 | 研究员 swarm | 模板 | 并行研究的 CAMEL 角色 |
| 6 | 评审-执行对 | 模板 | 一个 agent 做事,一个 agent 评审,纠错 |
| 7 | 分级 planner | 模板 | 经理派给工人的模式带预算 |
这个 pack 为什么重要
单 agent 是个聊天循环。多 agent 是个系统 —— 跟所有系统一样,要扛住真实负载就得有结构(状态机、队列、重试)。这里四个框架挑的是真能用的结构。三个模板告诉你最常见用例怎么接起来。
四个框架各下了不同的抽象赌注:
- LangGraph 把编排当作状态图。你声明节点(agent / 工具)和边(什么时候跳转),LangGraph 负责 checkpointing 让 30 分钟的任务崩了能续。最接近生产事实标准的那个。
- CAMEL 聚焦显式角色的 agent 间对话。两个 agent 演「用户」「助手」或「研究负责人」「写手」,对话直到目标达成。可复现性和学术 benchmark 强。
- DeepAgents 为长任务而生。顶层 agent 做规划,把子任务派给派生的 sub-agent,每个 sub-agent 有自己的 context window。专门避开「一个巨大 context」的失败模式。
- GPT Researcher 是应用案例。你给它一个研究问题,它跑一个 sub-agent swarm 收证据,输出带引用的长文报告。既是工具也是参考架构。
一条命令装齐
# 装整个 pack
tokrepo install pack/multi-agent-frameworks
# 或者一个一个装
tokrepo install langgraph
tokrepo install camel
tokrepo install deepagents
tokrepo install gpt-researcher
TokRepo CLI 把每个框架的适配器装进你的 AI 工具 —— Claude Code subagent 进 .claude/agents/,Cursor 规则进 .cursor/rules/,Codex CLI 进 AGENTS.md。底层库自己 pip / npm 装;TokRepo 接好 prompt 让你的 CLI 知道什么时候触发。
常见坑
- 别忘了预算。多 agent 任务能指数扇出 —— 一个 planner 派 5 个工人每个再派 5 个子任务,token 烧 25 倍。永远封顶深度和最大派生数。DeepAgents 内建这个;LangGraph 和 CAMEL 你自己设。
- 别天真地跨线程共用 LLM 客户端。多数 SDK 高并发下不完全线程安全。用进程级池或带界限的 async(如 asyncio.Semaphore(8))。
- 追踪一切。没 trace 的多 agent 调试根本做不动。这个 pack 配 LLM 可观测性 pack 一起 —— Langfuse 和 AgentOps 都有 LangGraph 一等公民集成。
- 小心角色漂移。CAMEL 风格对话里,agent 第 8-10 轮经常忘了自己是谁。每 N 轮加 system 提醒,或在每条消息钉住角色。
- 多 agent ≠ 更好。先试单 Claude Sonnet 4.5 + 扩展思考,再考虑多 agent 系统。2025 年 Anthropic 多 agent 研究博客发现,60% 人们丢给多 agent 的任务,单 agent + 工具就能搞定。
这个 pack 不够用的时候
多 agent 在能并行的子问题上闪光(研究、代码评审、跨主题内容生成)。但在以下场景失利:
- 顺序、深度状态化的任务。整库重构是单 agent 的活 —— 切分到多个 agent 反而协调开销大于收益。
- 延迟敏感的工作流。每次 agent 间跳转都加一个回合。SLA 5 秒以内的,留单 agent。
- 成本敏感的工作流。多 agent 同任务通常 3-10 倍单 agent 成本。难题求质量值得;「总结这封邮件」不值。
正确的上手路径:先用 GPT Researcher 当最简成品例子,等需要自己写编排时再升级 LangGraph 或 DeepAgents。
7 个资产打包就绪
常见问题
LangGraph 免费吗?
是。LangGraph 开源 MIT 许可,你只付 LLM token 钱。有付费 LangGraph Cloud 提供托管部署带 checkpoint 和追踪,但开源库功能完整,无付费层也能上生产。CAMEL / DeepAgents / GPT Researcher 也都是 OSS。
Cursor / Codex CLI 能用吗?
框架都是语言级 Python 库,不是 Claude Code 专属。任何能跑 Python 工具的 agent CLI 都能驱动。TokRepo CLI 给每个工具装对应接线 —— Codex CLI 出 AGENTS.md 指令说什么时候调用,Cursor 加规则。底层 Python 安装不变。
LangGraph 跟 CAMEL 怎么选?
LangGraph 结构优先:你画一个状态机,agent 进去填槽。CAMEL 对话优先:你分配角色让 agent 自由对话。LangGraph 在生产可靠性和 checkpoint 上赢;CAMEL 在研究、仿真、对话本身就是产物的场景赢。很多生产设置用 LangGraph 编排,CAMEL 处理具体对话任务。
跟记忆层 pack 有啥区别?
记忆是「agent 跨会话记住什么」。多 agent 是「单个任务里多 agent 怎么协调」。两者正交:多 agent 系统经常需要共享记忆层(Mem0 / Zep)让工人不必重发现 planner 早就知道的事实。要做正经东西建议两个 pack 都装。
什么时候*不*该上多 agent 框架?
任务顺序又有状态时(重构这个文件)、延迟敏感(聊天 UI 3 秒内)、或简单到一次 Claude / GPT 调用就够。Anthropic 自己的多 agent 研究博客指出,单 agent + 扩展思考在成本上打败多数多 agent 配置。任务天然并行(研究多源)或需要不同专家角色时再上多 agent。