浏览器自动化
Browser-Use / Skyvern / Stagehand 三巨头 + agent 真在用的 Chrome 扩展。选一个今天就能起爬虫。
这个 pack 装了什么
这个 pack 收齐了七个浏览器自动化资产,是从公开 agent 配置、Twitter 截图反复反向工程出来的常客组合。三个是头部开源框架,三个是基于这些框架封装的爬虫模板,一个是多 agent 共用 Chrome 时不可或缺的运维 MCP 补丁。
| # | 资产 | 类型 | 干什么 |
|---|---|---|---|
| 1 | Browser-Use | Python 框架 | LLM 原生的 Playwright 封装,Agent 直接对话 |
| 2 | Skyvern | Python 服务 | 视觉 + LLM 的浏览器自动化,独立 server |
| 3 | Stagehand | TypeScript 框架 | Browserbase 出品的生产级 SDK |
| 4 | Chrome MCP 弹窗补丁 | MCP server | 拦截 modal / cookie 弹窗不挡 agent |
| 5 | 无头爬虫模板 | 爬虫配方 | Skyvern + cron 起步 |
| 6 | 登录墙爬虫 | 爬虫配方 | OAuth + 会话复用模式 |
| 7 | Agent 用 web reader | MCP server | 给 Claude Code / Cursor 的 Markdown 抓取 |
为什么要装
大部分「AI 爬虫」教程止步于「打开这个页面读文字」。真实浏览器自动化要处理登录墙、cookie 横幅、modal 弹窗、无限滚动,以及多 agent 抢同一个 Chrome 会话时互相打架的事实。这个 pack 选的就是专门解决这些问题的七个资产,不是那 200 个收藏多但没人维护的替代品。
三个头部框架各有自己的位置:
- Browser-Use 入门最容易。Python 原生,自带 Playwright 封装,LLM 用自然语言就能驱动。一次性自动化和原型阶段最好用。
- Skyvern 跑成 server,用视觉 + LLM 一起做。页面结构在多次访问之间会变、选择器经常失效的场景最佳。比 Browser-Use 慢但更抗造。
- Stagehand 是生产级选项。TypeScript 优先,Browserbase 团队出品,专为成千上万个 agent 会话设计。要做面向客户的产品,选这个。
Chrome MCP 弹窗补丁必带,因为多 agent 跑 Chrome 早晚会撞到一个 agent 的 modal 挡住另一个 agent 点击的 bug。这个 MCP server 拦截最常见的弹窗模式自动清掉。
一条命令装齐
# 装整个 pack
tokrepo install pack/browser-automation
# 或者只挑你真要用的
tokrepo install browser-use
tokrepo install skyvern
tokrepo install stagehand
TokRepo CLI 把每个资产装到正确位置 —— Claude Code subagent 进 .claude/agents/,Cursor 规则进 .cursor/rules/,Codex CLI 进 AGENTS.md。按你的栈选子集就行。
注意坑
- 别让 Browser-Use 和 Stagehand 同时跑在同一个 Chrome 配置上,会抢活动 tab。要用就分开 user-data-dir,或者用 Browserbase 远程会话。
- Skyvern 要 GPU 或便宜的视觉模型兜底。默认配置每屏调一次 GPT-4o,长爬钱包烧得快。
- 登录墙爬取会撞到 reCAPTCHA 服务条款。爬自己的后台或明确允许自动化的站。这个 pack 自带「从真实浏览器导出会话」模式,不必让 agent 自己登。
- Cookie 横幅不全是 GDPR,很多站用作反爬陷阱。弹窗补丁解决常见的,剩下要手动加。
- 无头检测真的存在。Cloudflare / DataDome 会指纹识别。要绕过,用 Stagehand + Browserbase,他们自带隐身层。
这个 pack 不够用的时候
目标是大规模爬单个高价值站(招聘、房产、电商)时,专用爬虫如 Apify 或自己写 Playwright 集群成本能比 agent 方案低 5-10 倍。Agent 浏览器自动化最适合:
- 事先不知道要哪些字段
- 页面布局每次访问都不一样
- 想把爬取嵌进更大的 agent 任务(调研、获客、QA)
要纯吞吐就别上 LLM,自己写选择器。要灵活性、要扛住布局变更,这个 pack 赢。
7 个资产打包就绪
常见问题
Browser-Use 免费吗?
免费。Browser-Use 是 MIT 许可,你只付 LLM token 钱(Claude / GPT-4 / 开源权重模型都能跑)。库本身在任何能跑 Python + Playwright 的环境都能跑。Skyvern 和 Stagehand 也都是开源 —— Stagehand 有一个 Browserbase 托管的付费 Chrome 选项。
Codex CLI 或 Cursor 能用吗,不一定 Claude Code 吧?
七个资产都是工具无关的 —— 是 Python / TypeScript 库,不是 Claude Code 专属 subagent。TokRepo CLI 会装对应工具的接线(Claude Code 用 subagent,Cursor 用规则,Codex CLI 进 AGENTS.md)。Browser-Use 还内建 OpenAI / Anthropic 切换,搭配你 CLI 用的模型即可。
Skyvern 跟 Browser-Use 比怎么选?
Skyvern 用视觉(截图 + LLM)找元素,所以布局变更也能扛 —— 选择器派的爬虫这种情况就崩。Browser-Use 是 Playwright 选择器驱动,更快更便宜但更脆。经验法则:用 Browser-Use 做原型,上生产看是要视觉(Skyvern)还是规模(Stagehand)。
跟 MCP 服务器全家桶 pack 有啥区别?
MCP 全家桶聚焦协议层连接器 —— 浏览器 / 数据库 / 文件系统 MCP server,任何 agent 都能接。浏览器自动化是有立场的:明确选了哪几个浏览器工具、怎么写爬虫。Chrome MCP 弹窗补丁两个 pack 都有,因为对任何碰真浏览器的 agent 都是承重墙。
什么时候*不*该上 agent 浏览器自动化?
吞吐比灵活性重要时。如果是每小时爬同 100 个商品页、布局从不变,直接写 Playwright 选择器 —— 成本立省 10 倍、还少一个不稳定的 LLM 依赖。Agent 层适合探索性任务或页面未知的场景。