TOKREPO · 主题包

稳定

投资人尽调 AI 工具组 — Startup VC Research Toolkit

十件资产，给那个周一找 deal、周二挖公司、周三背调创始人、周四啃三份 10-K、周五出 IC 备忘录的早期 VC / 天使 / FoF 分析师。Deep research + 公司情报 + 创始人背调 + 财报阅读 + 备忘录综合。苦力交给 AI，判断留给你。

10 个资产

关于这个主题包

这个 pack 包含什么

这是给「邮箱里已经堆了 40 封邮件、12 份 deck，周五只剩一个 IC 名额」的早期投资人准备的栈 — 不是 KOL 那种「AI 改变 VC」的长文。每个工具只做尽调这一周里的一件事：开一个 sourcing thesis、挖一家私有公司的信号、把创始人最近 3 段工作经历核一遍、读完一份对标公开公司的 10-K、写出一份合伙人会真的拿红笔改的 memo 草稿。

Pack 有意做成 AI 辅助、不是自动驾驶。投资人不会因为慢丢 LP，会因为对错的公司有 conviction 丢 LP。所以工作流在每个判断点都把你留在环里 — AI 做大部分搜索、抓取、转写、初稿；你读一手材料、自己拍价格。

不需要先学两周 LangGraph — 大部分资产是 Claude Code 子 agent 一条命令装好，或者 MCP server 接进去。挑一个 deep research agent、一个 search API、一个 scraper、一个 filings 工具，周一早上就能用起来。

Pack 里有什么 — 五层

Layer 1 — Sourcing / Deep Research（在一个 thesis 或 category 上做广扫）

GPT Researcher — 自动调研 agent，回答「现在谁在做 X」
STORM — 多视角专家模拟，给陌生 category 画地图
Perplexity Sonar API — 单次 API 调用拿到带引用的快答

Layer 2 — 公司情报（把一个公司名变成证据）

Exa — AI 原生搜索 API，挖公司、博客、招聘信号
Tavily Search — 给 agent RAG 管道用的搜索 API，JSON 比爬 SERP 干净
Web-Check — OSINT dashboard，拉 DNS、技术栈、HTTP header、证书、archive 历史

Layer 3 — 创始人背调 + 抓取

Apify MCP Server — 8,000+ 现成爬虫（LinkedIn、GitHub、新闻、点评），agent 可调

Layer 4 — 财务 / 公开财报

SEC EDGAR MCP Server — 让 agent 拉 10-K、10-Q、S-1、8-K，给后期 / Pre-IPO 项目做对标
OpenBB — 开源投研平台，股票、期权、加密、宏观、alt-data 一锅端

Layer 5 — Memo / IC 综合

Claude Code Agent: Research Analyst — 把上面所有东西综合成结构化的 IC memo 段落

它们怎么协同

  Sourcing thesis
  ┌──────────────────────────────────────────┐
  │ STORM（陌生 category 画地图）              │
  │   └──► GPT Researcher（深扫、带引用）      │
  │       Perplexity Sonar（是非快答）         │
  └──────────────────┬───────────────────────┘
                     │
                     ▼   公司名 / 域名 / 创始人
  ┌──────────────────────────────────────────┐
  │ Exa + Tavily ── agent 的 search layer    │
  │ Web-Check ──── 域名 OSINT                │
  │ Apify MCP ──── 创始人 + 客户抓取          │
  └──────────────────┬───────────────────────┘
                     ▼   每家公司的证据库
  ┌──────────────────────────────────────────┐
  │ SEC EDGAR MCP ── 公开对标财报             │
  │ OpenBB ──────── 行业 / 市场上下文          │
  └──────────────────┬───────────────────────┘
                     ▼
        Claude Code Agent: Research Analyst
         （IC memo 草稿：thesis · 市场
          · 团队 · traction · 风险 · ask）
                     │
                     ▼
              合伙人 review / IC

关键连接是 signal → deal → due diligence → memo → IC。每个交接点都是投资人掉链子的地方：sourcing thesis 没变成 deal pipeline、尽调抓取没进 memo、memo 到 IC 时没对标数据。这十个工具就是挑出来让你能在一套工具面上从头到尾走通的。

你会遇到的取舍

数据新鲜度 vs 成本 — Perplexity Sonar 和 GPT Researcher 都拉的是 live web；私有公司数据常常滞后几周到几季度（上一轮、人头、客户数）。A 轮及更早，创始人手里的 deck 比任何爬虫都新 — AI 用来核对和补充，不是替代沟通。EDGAR 是到 filing 当日；OpenBB 的市场数据除非接付费源否则有延迟。
抓取合规 — Apify 上 LinkedIn、Glassdoor、Crunchbase 的爬虫违反那些站的 ToS，哪怕在你这个司法辖区技术上不违法。平台收费是一回事；诉讼风险（hiQ vs LinkedIn、Bright Data vs Meta）是另一回事。两条更安全的路：(a) 用官方 API（LinkedIn Sales Navigator API 适合给已融资的企业），(b) 只抓创始人反正会给你的数据，把 Apify 用在外围信号（GitHub、新闻、点评）。要爬就带署名、做 rate limit。
AI 对私有公司编造 — LLM 会非常自信地给你一家私有公司的 ARR、人头、上一轮金额。常常错。涉及私有公司的论据，必须要有 (a) 公司自己发布的一手出处，或 (b) 你有 license 的付费 DB（PitchBook、CB Insights、Sourcescrub）的引用。任何无出处的 AI 论断都按可疑处理 — 模型在拿老 TechCrunch 文章插值。
Memo 模板套用过死 — Research Analyst 和 Report Generator 默认都套一个通用 IC memo 模板。如果你 firm 有打磨过的模板（章节、评分 rubric、对标表格式），把它粘进 context，agent 会按它来。如果没有，先用 agent 默认输出再迭代成模板。别让 AI 给你设计 memo 格式 — 那是你 IC 的品味决策，不是效率问题。
OpenBB vs 付费数据 — OpenBB 免费、聚合得多，但更深的行业 / 一级市场数据藏在付费集成（FMP、Polygon、Tiingo）后面。种子 / A 轮尽调，OpenBB 的免费公开市场数据当上下文一般够。后期 / 成长期，认真买一个数据订阅。
STORM vs 直接让 Claude 带搜索 — 单个问题，Claude 自带搜索更快。STORM 值的三种情况：(a) 要一份带引用能挂在 memo 后面的报告，(b) 一次性扫 8-12 个子问题画一张 category 地图，(c) 多视角模拟能挖出单一 prompt 漏掉的角度。给 sourcing thesis 用，引用链路重要 — 合伙人会挑论据。

常见踩坑

信源不验证 — AI 搜索 agent 会返回引用。它们不全是真的。GPT Researcher 和 Perplexity 偶尔会幻觉 URL 或把一句话归错文章。粘进 memo 前一定要点开每个引用。你省的那五分钟，会变成合伙人在 IC 上点开链接发现是死页的尴尬。
没过法务直接违反 ToS 抓取 — hiQ vs LinkedIn 是个拖了多年、判例边界还窄的官司。Apify 会乐意跑它 8,000 个爬虫里的任何一个；不代表你 firm 应该全跑。带一页纸给 GC 看：你在抓哪些站、什么速率，尤其是任何会进 data room 或卖给 LP 的数据产品。
AI 编造创始人背景 — 最危险的失败模式。「这个创始人上一家公司卖给了 Salesforce」是一种模型会从 LinkedIn 一行模糊文案里造出来的论断。创始人工作经历一定要核对一手出处（LinkedIn 本人页面直读、收购方的新闻稿、创始人自己的 bio）。AI 综合的创始人 bio，粘进 memo 前至少抽核三条具体论断。
Memo 模板套得太死 — IC memo 存在的意义是在 IC 会议上引出正确的争论。如果 agent 给你一份漂亮的结构化 memo，但真正该讨论的其实是「这是 category bet 不是 company bet」，那就重写结构。模板是起点，不是论证的最终形状。
没看一个 deal 先搭 agent 栈 — 最糟的投资人失败模式是「尽调拖延症装成工具搭建」。挑三个工具（GPT Researcher + Web-Check + Research Analyst），周一开 thesis，周三浮出 5 个名字，周五挖深 2 家。剩下 7 个工具只在前 3 个饱和时才有座位。

安装 · 一行命令

$ tokrepo install pack/startup-vc-research-toolkit

丢给 agent，或粘到终端

包内含什么

10 个资产打包就绪

Skill#01

GPT Researcher — Autonomous Research Report Agent

AI agent that generates detailed research reports from a single query. Searches multiple sources, synthesizes findings, and cites references.

by TokRepo精选·4157 views

$ tokrepo install gpt-researcher-autonomous-research-report-agent-23330210

Skill#02

STORM — AI Research Report Generator by Stanford

Stanford's LLM-powered system that researches any topic and writes a full Wikipedia-style article with citations. Simulates multi-perspective expert conversations.

by Skill Factory·358 views

$ tokrepo install storm-ai-research-report-generator-stanford-f09e9348

Skill#03

Perplexity Sonar API — Search-Grounded LLM in One Call

Perplexity Sonar API returns LLM answers grounded in real-time web search with citations. Tiers: sonar / sonar-pro / sonar-reasoning.

by Perplexity·213 views

$ tokrepo install perplexity-sonar-api-search-grounded-llm-in-one-call

Script#04

Exa — AI-Native Search API for Agent Pipelines

Search engine built for AI agents with semantic understanding. Exa returns clean content (not links) using neural search, ideal for RAG pipelines and research automation.

by Script Depot·433 views

$ tokrepo install exa-ai-native-search-api-agent-pipelines-f550d644

Agent#05

Tavily Search — Search API Built for AI Agents

Tavily Search returns LLM-ready answers from the web — not link lists. One call gets snippets, citations, optional generated answer. Free tier 1K/mo.

by Tavily·309 views

$ tokrepo install tavily-search-search-api-built-for-ai-agents

Skill#06

Web-Check — All-in-One Website OSINT and Analysis Dashboard

Web-Check is a self-hosted dashboard that aggregates DNS, SSL, security headers, performance, and dozens of other checks for any website into a single comprehensive report.

by Script Depot·359 views

$ tokrepo install web-check-all-one-website-osint-analysis-dashboard-785782af

MCP#07

Apify MCP Server — 8,000+ Web Scrapers for Agents

Apify MCP Server connects agents to Apify Actors via a hosted endpoint (mcp.apify.com) or local run, turning thousands of web scrapers into callable tools.

by MCP Hub·283 views

$ tokrepo install apify-mcp-server-8-000-web-scrapers-for-agents

MCP#08

SEC EDGAR MCP Server — Query Filings from Agents

SEC EDGAR MCP Server lets agents query filings (10-K/10-Q/8-K) with exact numbers and source URLs. Verified 265★; Docker quickstart in ~5–10 minutes.

by MCP Hub·204 views

$ tokrepo install sec-edgar-mcp-server-query-filings-from-agents

Skill#09

OpenBB — Open-Source Investment Research Platform

OpenBB provides a unified Python SDK and CLI for accessing financial market data from dozens of providers, enabling quant researchers and analysts to build custom investment workflows without expensive terminal subscriptions.

by Script Depot·162 views

$ tokrepo install openbb-open-source-investment-research-platform-40612086

Skill#10

Claude Code Agent: Research Analyst

Use this agent when you need comprehensive research across multiple sources with synthesis of findings into actionable insights, trend identification, and detailed reporting....

by TokRepo精选·194 views

$ tokrepo install claude-code-agent-research-analyst-7f170fd0

常见问题

AI 真的能读 Crunchbase / PitchBook / Sourcescrub 的数据吗？

只在你 firm 有 license + 平台开了 API 或导出时。Crunchbase 有付费 API（企业版 ~$400/月起）；PitchBook 和 Sourcescrub 要企业 license 且没开放 API。一旦你有了程序化访问，可以把数据导成 JSON 喂进自己的 agent context（Claude Code 子 agent 读 Crunchbase 导出 JSON 效果不错）。没 license 去爬这些站既违反 ToS 也有 CFAA 风险，别做。 早期尽调没付费 DB 时，现实替代是 Apify 抓公开站（LinkedIn 员工数、GitHub 活跃度、公司官网）+ 创始人提供的数据。AI 不替代缺失的数据源，只让你合法拿到的数据走得更远。

创始人背调最少要几个独立信源？

三个，而且必须是真正独立的。(1) LinkedIn 看工作履历 — 把 title 和日期跟公司自己的公告对一遍。(2) 创始人名字 + 「lawsuit」/「fired」/「scandal」在 Exa 和 Perplexity 上各搜一遍 — 多数声誉问题如果存在都会在这里浮出。(3) 2-3 个跟创始人共事过、但不在创始人给的 reference list 上的人，反向 backchannel 一下。「Backchannel」是 AI 不能替代的那一环 — LinkedIn 热介绍 + 真实 15 分钟通话，比任何 agent 输出都强。AI 工具是步骤 1 和 2 的杠杆；步骤 3 是真正的信号。谁告诉你全自动创始人背调够用，他在卖产品，不是在做尽调。

Apify 的 LinkedIn 爬虫合规吗？

灰色地带，且仍在变。hiQ Labs vs LinkedIn（第九巡回法院 2022 判决）认为爬公开可访问的 LinkedIn 数据不构成 CFAA 违法，但 LinkedIn 的 ToS 仍然禁止，且 LinkedIn 起诉过爬虫公司的民事案。实务投资人姿态：(a) 让 GC 书面 sign-off 你抓哪些数据源、什么速率，(b) 有官方 API 优先用（LinkedIn Sales Navigator API、GitHub API、Twitter API），(c) 任何会进 LP 看的产出都记录数据来源链路，(d) 抓来的数据当线索，不当 memo 论据 — 在一手出处复核后再引用。如果你回答不了 LP 一句「你这数据怎么来的」，就别放进 memo。

AI 起草的 IC memo 应该多长？

比 AI 想给你的短。Research Analyst agent 会乐意给你 4,000 字。多数早期 firm 的真实 IC memo 是 2-4 页密集行文 + 附录附件。AI 的活是把尽调材料压成对的那 1,500 字；你的活是把合伙人不需要看就能拍板的所有东西无情砍掉。值得占位的章节：thesis（你信什么、为啥）、市场（TAM 带假设，不要 TechCrunch 数字）、团队（具体为啥这帮人在这个市场赢）、traction（一张关键图）、风险（杀掉它的三件事）、ask（轮次、价格、占比）。其它进附录 — 没人读但谁都会问。如果你的 IC memo 超过 4 页，AI 加的是噪音不是价值。

尽调里哪一步最值得用这些工具自动化？

inbound deck 的初筛：公司域名 OSINT（Web-Check）、创始人 LinkedIn 拉取（Apify）、公开对标的定价页扫描（Exa + Tavily）— deck 一到就并行触发，你打开 deck 之前一页 brief 已经躺在邮箱里。这把「值不值得打第一次电话」的决策从 90 分钟手工 Google 压缩到 15 分钟结构化阅读，按 deck 量扩展的方式人脑做不到。最深的尽调（reference call、客户访谈、财务建模）最后才自动化 — 那些是产生信号的活动，不是收集数据的活动。

更多主题包

12 个主题包 · 80+ 精选资产

回首页浏览全部精选合集

返回主题包总览