TOKREPO · ARSENAL
Estable

Scraping para IA

Firecrawl, Crawlee, Crawl4AI, GPT Crawler, ScrapeGraphAI — motores que devuelven markdown listo para LLM, no HTML crudo.

5 recursos

Qué incluye este pack

# Motor Fortaleza Lenguaje
1 Firecrawl API hosted + self-host, render JS, crawl de sitemap TypeScript
2 Crawlee framework completo de crawler con rotación de proxies TypeScript / Python
3 Crawl4AI markdown optimizado para RAG, crawl async más rápido Python
4 GPT Crawler crawl de knowledge-base con un archivo de config TypeScript
5 ScrapeGraphAI extracción dirigida por LLM vía prompt + schema Python

Las cinco herramientas convergen en el mismo insight: alimentar HTML crudo a un LLM es un impuesto de tokens. Cuando ya quitaste navbars, ads, scripts y estilos inline, has quemado miles de tokens en nada. Los scrapers AI-native hacen esa conversión en el borde del crawler para que tu capa de retrieval vea markdown limpio.

Por qué el scraping cambió en 2026

Tres cambios jubilaron el playbook clásico.

Primero, el render JavaScript es base. SPAs y sitios edge-rendered esconden contenido tras hydration. El stack de 2018 (requests + BeautifulSoup) devuelve cáscaras. Los motores modernos envuelven Chromium headless y esperan al evento network-idle correcto antes de extraer.

Segundo, el destino es retrieval, no display. La salida no va a un índice de búsqueda — va a una vector database para RAG. Eso cambia el target de optimización de "renderiza en navegador" a "cabe limpio en 8k tokens".

Tercero, el anti-bot escaló. Cloudflare, DataDome y PerimeterX bloquean scrapers naïve en segundos. Firecrawl y Crawlee resuelven esto con proxies residenciales rotantes, randomización de fingerprint y lógica de retry — features que de otro modo improvisas durante semanas.

Instala en un comando

# Instala el pack completo
tokrepo install pack/ai-web-scraping

# O elige el motor que encaja en tu stack
tokrepo install firecrawl
tokrepo install crawl4ai
tokrepo install scrapegraphai

La página TokRepo de cada recurso incluye comandos de instalación, configuración recomendada, y los adaptadores de salida más comunes (markdown, JSONL, insert directo a vector-db).

Trampas comunes

  • Robots.txt y rate limits: respétalos. La mayoría de motores tienen respect_robots_txt activado por defecto; apagarlo invita bans de IP y problemas legales. Define delays educados.
  • Páginas JavaScript sin render JS: si Firecrawl/Crawl4AI devuelve vacío, estás golpeando un sitio con hydration sin habilitar render. Activa la opción JS.
  • Drift de markdown: diferentes motores emiten variantes ligeramente distintas (tablas, code blocks, notas). Normaliza post-crawl si mezclas motores para el mismo corpus RAG.
  • PDFs/Office disfrazados de páginas web: scrapers web no los extraen. Pásalo al pack Document AI Pipeline.
  • Contenido tras login: scraping detrás de auth es frágil y a menudo viola ToS. Usa la API oficial donde exista.

Cuando este pack solo no basta

Este pack es la capa de extracción. Para completar un pipeline RAG también necesitas:

  • Una vector database — ver pack Vector DB Showdown (Chroma, Weaviate, Qdrant)
  • Paso de chunking + embedding — usualmente con LangChain o LlamaIndex
  • Loop de eval — pack LLM Eval & Guardrails para puntuar relevancia

Para PDFs y Office, cambia al pack Document AI Pipeline. Para scraping interactivo (rellenar formularios, navegar wizards), el pack Browser Automation es la herramienta — esos sitios necesitan interacción estilo Playwright, no crawl.

Cómo elegir el motor

  • Quieres una API hosted y no te molesta pagar la infra gestionada: Firecrawl. Mejor dev-ex de los cinco, render JS y rotación de proxies built-in.
  • Necesitas scrapear millones de páginas en hardware propio: Crawlee. El framework de crawler más maduro, con persistencia de cola y runs reanudables.
  • Construyes ingesta RAG con Python: Crawl4AI. Diseño async-first alcanza 3-5x throughput vs crawlers síncronos en la misma máquina.
  • Exportación one-time de knowledge-base para un chatbot: GPT Crawler. Un solo config.ts apunta a un dominio y sale un JSONL listo para subir a OpenAI.
  • Páginas con schema irregular donde quieres extraer por intención: ScrapeGraphAI. Le pasas un modelo Pydantic y un prompt; descubre los selectores por página.
INSTALAR · UN COMANDO
$ tokrepo install pack/ai-web-scraping
pásalo a tu agente — o pégalo en tu terminal
Qué incluye

5 recursos listos para instalar

Script#01
Firecrawl — Web Scraping API for AI Applications

Turn any website into clean markdown or structured data for LLMs. Firecrawl handles JavaScript rendering, anti-bot bypassing, sitemaps, and batch crawling via simple API.

by Prompt Lab·97 views
$ tokrepo install firecrawl-web-scraping-api-ai-applications-6a62a986
Script#02
Crawlee — Production Web Scraping for Node.js

Build reliable crawlers with automatic proxy rotation, request queuing, and browser automation. By Apify. 22K+ stars.

by Script Depot·97 views
$ tokrepo install crawlee-production-web-scraping-node-js-3e8c6e91
Script#03
Crawl4AI — LLM-Friendly Web Crawling

Open-source web crawler optimized for AI and LLM use cases. Extracts clean markdown, handles JavaScript-rendered pages, and supports structured data extraction.

by Script Depot·96 views
$ tokrepo install crawl4ai-llm-friendly-web-crawling-cb19c9d4
Config#04
GPT Crawler — Build Custom GPTs from Any Website

Crawl any website to generate knowledge files for custom GPTs and RAG. Output as JSON for OpenAI GPTs or any LLM knowledge base. Zero config. 22K+ stars.

by AI Open Source·97 views
$ tokrepo install gpt-crawler-build-custom-gpts-any-website-bbd3962b
Script#05
ScrapeGraphAI — AI-Powered Web Scraping

Python scraping library powered by LLMs. Describe what you want to extract in natural language, get structured data back. Handles dynamic pages. 23K+ stars.

by Script Depot·96 views
$ tokrepo install scrapegraphai-ai-powered-web-scraping-d34e3181
FAQ

Preguntas frecuentes

¿Son gratis estas herramientas?

Las cinco son open-source. Firecrawl ofrece un tier SaaS hosted con cuota gratis, pero puedes self-host gratis. Crawlee, Crawl4AI, GPT Crawler y ScrapeGraphAI son 100% self-hosted con licencia BSD/MIT. El coste oculto son servicios de proxy si scrapeas sitios con anti-bot agresivo — espera $50-200/mes en proxies residenciales para cargas reales.

¿Firecrawl o Crawl4AI?

Firecrawl si quieres endpoint hosted y no te molesta pagar por infra gestionada; su API es más simple y el render JS es sólido. Crawl4AI si eres Python-native y quieres throughput máximo en self-host; su arquitectura async supera a Firecrawl en velocidad pura pero requiere más ops glue. Para un agente Cursor/Codex CLI llamando tools, ambos sirven — Firecrawl tiene menos pasos de setup.

¿Funcionará con Cursor o Codex CLI como herramienta?

Sí — la mayoría tiene MCP servers o APIs HTTP que cualquier herramienta IA con tool-calling puede invocar. Firecrawl lleva un MCP server oficial. Crawl4AI expone una función Python que puedes envolver. Mete la config MCP en los ajustes de Cursor o tu definición de agent Codex CLI y el LLM podrá scrapear bajo demanda.

¿En qué difiere del pack Browser Automation?

Scraping es extracción primero: quieres markdown listo-LLM de una página cuya URL puedes predecir. Browser automation es interacción primero: clicas, rellenas, navegas, capturas. Hay solapamiento (ambos usan Chromium headless), pero la API y el flujo típico difieren. Si construyes corpus RAG, este pack. Si rellenas formularios, Browser Automation.

¿Cuál es la trampa operativa?

Token blow-up por crawls demasiado ávidos. Un sitemap con 10k páginas a 5k tokens cada una = 50M tokens de coste de embedding — fácilmente $500+ a precios OpenAI. Define siempre max_pages y max_depth primero, muestrea 50 páginas, cuenta tokens, proyecta la factura, luego suelta. Barato olvidarlo, caro arreglarlo.

MÁS DEL ARSENAL

12 packs · 80+ recursos seleccionados

Explora todos los packs curados en la página principal

Volver a todos los packs