投资人尽调 AI 工具组 — Startup VC Research Toolkit
十件资产,给那个周一找 deal、周二挖公司、周三背调创始人、周四啃三份 10-K、周五出 IC 备忘录的早期 VC / 天使 / FoF 分析师。Deep research + 公司情报 + 创始人背调 + 财报阅读 + 备忘录综合。苦力交给 AI,判断留给你。
这个 pack 包含什么
这是给「邮箱里已经堆了 40 封邮件、12 份 deck,周五只剩一个 IC 名额」的早期投资人准备的栈 — 不是 KOL 那种「AI 改变 VC」的长文。每个工具只做尽调这一周里的一件事:开一个 sourcing thesis、挖一家私有公司的信号、把创始人最近 3 段工作经历核一遍、读完一份对标公开公司的 10-K、写出一份合伙人会真的拿红笔改的 memo 草稿。
Pack 有意做成 AI 辅助、不是自动驾驶。投资人不会因为慢丢 LP,会因为对错的公司有 conviction 丢 LP。所以工作流在每个判断点都把你留在环里 — AI 做大部分搜索、抓取、转写、初稿;你读一手材料、自己拍价格。
不需要先学两周 LangGraph — 大部分资产是 Claude Code 子 agent 一条命令装好,或者 MCP server 接进去。挑一个 deep research agent、一个 search API、一个 scraper、一个 filings 工具,周一早上就能用起来。
Pack 里有什么 — 五层
Layer 1 — Sourcing / Deep Research(在一个 thesis 或 category 上做广扫)
- GPT Researcher — 自动调研 agent,回答「现在谁在做 X」
- STORM — 多视角专家模拟,给陌生 category 画地图
- Perplexity Sonar API — 单次 API 调用拿到带引用的快答
Layer 2 — 公司情报(把一个公司名变成证据)
- Exa — AI 原生搜索 API,挖公司、博客、招聘信号
- Tavily Search — 给 agent RAG 管道用的搜索 API,JSON 比爬 SERP 干净
- Web-Check — OSINT dashboard,拉 DNS、技术栈、HTTP header、证书、archive 历史
Layer 3 — 创始人背调 + 抓取
- Apify MCP Server — 8,000+ 现成爬虫(LinkedIn、GitHub、新闻、点评),agent 可调
Layer 4 — 财务 / 公开财报
- SEC EDGAR MCP Server — 让 agent 拉 10-K、10-Q、S-1、8-K,给后期 / Pre-IPO 项目做对标
- OpenBB — 开源投研平台,股票、期权、加密、宏观、alt-data 一锅端
Layer 5 — Memo / IC 综合
- Claude Code Agent: Research Analyst — 把上面所有东西综合成结构化的 IC memo 段落
推荐安装顺序
- GPT Researcher — 自动调研报告 Agent — 从这里起步,因为 sourcing thesis 含糊,下面啥都白搭。给它「2026 开源 agent 框架里谁在融种子」「谁在做 local-first 同步引擎」,回来一份多源、带引用、可以直接粘进 Notion 的报告。Apache-2.0、Python 包、26k+ GitHub stars。烧 OpenAI + Tavily token,每份报告几分钱预算。
- STORM — AI 调研报告生成器(Stanford) — 当 category 本身就陌生(「security 里的 *-as-code 到底是啥、谁重要」),STORM 的多视角专家对话会冒出单一 prompt 漏掉的角度。Stanford 出品、Wikipedia 风格的带引用产出。在你还不知道该问什么子问题时,比 GPT Researcher 更早用。
- Perplexity Sonar API — 单次调用的搜索式 LLM — 给「这个创始人上一家公司到底是被收了还是关了」这种是非题用。一次 API 调用、自带引用,比起跑完整调研 agent 快得多。按次付费、扩展性好。
- Exa — AI 原生搜索 API(给 agent 管道用) — SERP 爬挂掉时,给你自己的尽调 agent 用的搜索后端。结构化结果带内容抽取,「找和 相似的 startup」这种 neural search 它原生支持。把它当你其它 agent 的 search layer。
- Tavily Search — 给 AI Agent 用的搜索 API — 备选 search 后端。一般 web RAG 更干净,免费额度大方。和 Exa 配对:Tavily 走广度,Exa 走 neural 相似度。GPT Researcher 默认就用 Tavily 当底。
- Web-Check — 一站式网站 OSINT 分析面板 — deck 一到,先把公司域名丢进 Web-Check。DNS 历史、托管、技术栈、安全 header、证书、archive 版本,60 秒告诉你这家公司是不是 6 周前刚建、谁托管、栈对不对得上 deck 吹的。
- Apify MCP Server — 8,000+ 网页爬虫 — 创始人背调(LinkedIn 工作经历、GitHub commit 活跃度、X 触达)、客户点评(G2、Capterra)、新闻监控全靠一个 MCP server。按条结果付费而不是按爬虫付费。每个爬虫跑之前先读 ToS — 尤其 LinkedIn。
- SEC EDGAR MCP Server — Agent 查美股财报 — B 轮项目要拿一个上市对标做 benchmark 时,让 agent 把对标的最近 10-K / 10-Q / S-1 拉来,回答「他们的营收增速、毛利率、rule-of-40 趋势是多少」,不用你手动开 edgar.gov 三十次。免费、EDGAR 不需要 API key。
- OpenBB — 开源投研平台 — 金融数据 hub:股票、期权、加密、宏观、alt-data,一个统一的 Python / CLI。给行业 benchmark(「公开 dev-tools 指数现在 vs 2023 怎么交易的」),以及 memo 第 12 页那个不画就交不出去的图。
- Claude Code Agent: Research Analyst — 综合层。把步骤 1 的 GPT Researcher 报告、步骤 6-7 的 Web-Check + Apify 抓取、步骤 8 的 EDGAR 对标数据喂进去,agent 出结构化的 IC memo 段落(thesis、市场、团队、traction、风险、ask)。只是初稿 — 你的活是推回那些幻觉营收数字、抹平团队短板的部分。
它们怎么协同
Sourcing thesis
┌──────────────────────────────────────────┐
│ STORM(陌生 category 画地图) │
│ └──► GPT Researcher(深扫、带引用) │
│ Perplexity Sonar(是非快答) │
└──────────────────┬───────────────────────┘
│
▼ 公司名 / 域名 / 创始人
┌──────────────────────────────────────────┐
│ Exa + Tavily ── agent 的 search layer │
│ Web-Check ──── 域名 OSINT │
│ Apify MCP ──── 创始人 + 客户抓取 │
└──────────────────┬───────────────────────┘
▼ 每家公司的证据库
┌──────────────────────────────────────────┐
│ SEC EDGAR MCP ── 公开对标财报 │
│ OpenBB ──────── 行业 / 市场上下文 │
└──────────────────┬───────────────────────┘
▼
Claude Code Agent: Research Analyst
(IC memo 草稿:thesis · 市场
· 团队 · traction · 风险 · ask)
│
▼
合伙人 review / IC
关键连接是 signal → deal → due diligence → memo → IC。每个交接点都是投资人掉链子的地方:sourcing thesis 没变成 deal pipeline、尽调抓取没进 memo、memo 到 IC 时没对标数据。这十个工具就是挑出来让你能在一套工具面上从头到尾走通的。
你会遇到的取舍
- 数据新鲜度 vs 成本 — Perplexity Sonar 和 GPT Researcher 都拉的是 live web;私有公司数据常常滞后几周到几季度(上一轮、人头、客户数)。A 轮及更早,创始人手里的 deck 比任何爬虫都新 — AI 用来核对和补充,不是替代沟通。EDGAR 是到 filing 当日;OpenBB 的市场数据除非接付费源否则有延迟。
- 抓取合规 — Apify 上 LinkedIn、Glassdoor、Crunchbase 的爬虫违反那些站的 ToS,哪怕在你这个司法辖区技术上不违法。平台收费是一回事;诉讼风险(hiQ vs LinkedIn、Bright Data vs Meta)是另一回事。两条更安全的路:(a) 用官方 API(LinkedIn Sales Navigator API 适合给已融资的企业),(b) 只抓创始人反正会给你的数据,把 Apify 用在外围信号(GitHub、新闻、点评)。要爬就带署名、做 rate limit。
- AI 对私有公司编造 — LLM 会非常自信地给你一家私有公司的 ARR、人头、上一轮金额。常常错。涉及私有公司的论据,必须要有 (a) 公司自己发布的一手出处,或 (b) 你有 license 的付费 DB(PitchBook、CB Insights、Sourcescrub)的引用。任何无出处的 AI 论断都按可疑处理 — 模型在拿老 TechCrunch 文章插值。
- Memo 模板套用过死 — Research Analyst 和 Report Generator 默认都套一个通用 IC memo 模板。如果你 firm 有打磨过的模板(章节、评分 rubric、对标表格式),把它粘进 context,agent 会按它来。如果没有,先用 agent 默认输出再迭代成模板。别让 AI 给你设计 memo 格式 — 那是你 IC 的品味决策,不是效率问题。
- OpenBB vs 付费数据 — OpenBB 免费、聚合得多,但更深的行业 / 一级市场数据藏在付费集成(FMP、Polygon、Tiingo)后面。种子 / A 轮尽调,OpenBB 的免费公开市场数据当上下文一般够。后期 / 成长期,认真买一个数据订阅。
- STORM vs 直接让 Claude 带搜索 — 单个问题,Claude 自带搜索更快。STORM 值的三种情况:(a) 要一份带引用能挂在 memo 后面的报告,(b) 一次性扫 8-12 个子问题画一张 category 地图,(c) 多视角模拟能挖出单一 prompt 漏掉的角度。给 sourcing thesis 用,引用链路重要 — 合伙人会挑论据。
常见踩坑
- 信源不验证 — AI 搜索 agent 会返回引用。它们不全是真的。GPT Researcher 和 Perplexity 偶尔会幻觉 URL 或把一句话归错文章。粘进 memo 前一定要点开每个引用。你省的那五分钟,会变成合伙人在 IC 上点开链接发现是死页的尴尬。
- 没过法务直接违反 ToS 抓取 — hiQ vs LinkedIn 是个拖了多年、判例边界还窄的官司。Apify 会乐意跑它 8,000 个爬虫里的任何一个;不代表你 firm 应该全跑。带一页纸给 GC 看:你在抓哪些站、什么速率,尤其是任何会进 data room 或卖给 LP 的数据产品。
- AI 编造创始人背景 — 最危险的失败模式。「这个创始人上一家公司卖给了 Salesforce」是一种模型会从 LinkedIn 一行模糊文案里造出来的论断。创始人工作经历一定要核对一手出处(LinkedIn 本人页面直读、收购方的新闻稿、创始人自己的 bio)。AI 综合的创始人 bio,粘进 memo 前至少抽核三条具体论断。
- Memo 模板套得太死 — IC memo 存在的意义是在 IC 会议上引出正确的争论。如果 agent 给你一份漂亮的结构化 memo,但真正该讨论的其实是「这是 category bet 不是 company bet」,那就重写结构。模板是起点,不是论证的最终形状。
- 没看一个 deal 先搭 agent 栈 — 最糟的投资人失败模式是「尽调拖延症装成工具搭建」。挑三个工具(GPT Researcher + Web-Check + Research Analyst),周一开 thesis,周三浮出 5 个名字,周五挖深 2 家。剩下 7 个工具只在前 3 个饱和时才有座位。
10 个资产打包就绪
常见问题
AI 真的能读 Crunchbase / PitchBook / Sourcescrub 的数据吗?
只在你 firm 有 license + 平台开了 API 或导出时。Crunchbase 有付费 API(企业版 ~$400/月起);PitchBook 和 Sourcescrub 要企业 license 且没开放 API。一旦你有了程序化访问,可以把数据导成 JSON 喂进自己的 agent context(Claude Code 子 agent 读 Crunchbase 导出 JSON 效果不错)。没 license 去爬这些站既违反 ToS 也有 CFAA 风险,别做。 早期尽调没付费 DB 时,现实替代是 Apify 抓公开站(LinkedIn 员工数、GitHub 活跃度、公司官网)+ 创始人提供的数据。AI 不替代缺失的数据源,只让你合法拿到的数据走得更远。
创始人背调最少要几个独立信源?
三个,而且必须是真正独立的。(1) LinkedIn 看工作履历 — 把 title 和日期跟公司自己的公告对一遍。(2) 创始人名字 + 「lawsuit」/「fired」/「scandal」在 Exa 和 Perplexity 上各搜一遍 — 多数声誉问题如果存在都会在这里浮出。(3) 2-3 个跟创始人共事过、但不在创始人给的 reference list 上的人,反向 backchannel 一下。「Backchannel」是 AI 不能替代的那一环 — LinkedIn 热介绍 + 真实 15 分钟通话,比任何 agent 输出都强。AI 工具是步骤 1 和 2 的杠杆;步骤 3 是真正的信号。谁告诉你全自动创始人背调够用,他在卖产品,不是在做尽调。
Apify 的 LinkedIn 爬虫合规吗?
灰色地带,且仍在变。hiQ Labs vs LinkedIn(第九巡回法院 2022 判决)认为爬公开可访问的 LinkedIn 数据不构成 CFAA 违法,但 LinkedIn 的 ToS 仍然禁止,且 LinkedIn 起诉过爬虫公司的民事案。实务投资人姿态:(a) 让 GC 书面 sign-off 你抓哪些数据源、什么速率,(b) 有官方 API 优先用(LinkedIn Sales Navigator API、GitHub API、Twitter API),(c) 任何会进 LP 看的产出都记录数据来源链路,(d) 抓来的数据当线索,不当 memo 论据 — 在一手出处复核后再引用。如果你回答不了 LP 一句「你这数据怎么来的」,就别放进 memo。
AI 起草的 IC memo 应该多长?
比 AI 想给你的短。Research Analyst agent 会乐意给你 4,000 字。多数早期 firm 的真实 IC memo 是 2-4 页密集行文 + 附录附件。AI 的活是把尽调材料压成对的那 1,500 字;你的活是把合伙人不需要看就能拍板的所有东西无情砍掉。值得占位的章节:thesis(你信什么、为啥)、市场(TAM 带假设,不要 TechCrunch 数字)、团队(具体为啥这帮人在这个市场赢)、traction(一张关键图)、风险(杀掉它的三件事)、ask(轮次、价格、占比)。其它进附录 — 没人读但谁都会问。如果你的 IC memo 超过 4 页,AI 加的是噪音不是价值。
尽调里哪一步最值得用这些工具自动化?
inbound deck 的初筛:公司域名 OSINT(Web-Check)、创始人 LinkedIn 拉取(Apify)、公开对标的定价页扫描(Exa + Tavily)— deck 一到就并行触发,你打开 deck 之前一页 brief 已经躺在邮箱里。这把「值不值得打第一次电话」的决策从 90 分钟手工 Google 压缩到 15 分钟结构化阅读,按 deck 量扩展的方式人脑做不到。最深的尽调(reference call、客户访谈、财务建模)最后才自动化 — 那些是产生信号的活动,不是收集数据的活动。