什么是 Crawlee?
Crawlee 是 Node.js/Python 网页抓取库,自动处理代理轮换、浏览器指纹、重试、自动扩缩和数据存储。
一句话总结:Crawlee 是网页抓取库,支持 Node.js 和 Python,内置代理轮换、反检测和自动扩缩。
核心功能
1. 多种爬虫类型
HTTP 爬虫(快速)和浏览器爬虫(JS 渲染)。
2. 反检测
内置浏览器指纹随机化和会话管理。
3. 代理轮换
每请求自动轮换代理。
4. 自动扩缩
根据系统资源和目标网站响应自动调整并发。
5. 内置存储
结构化数据集、键值存储、请求队列。
常见问题
Q: 和 Scrapy 比较? A: Crawlee 原生支持浏览器、内置反检测,JS+Python 双语言。Scrapy 仅 Python 且以 HTTP 为主。
来源与致谢
- GitHub: apify/crawlee (16k+ stars)