[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"pack-detail-ai-web-scraping-es":3,"seo:pack:ai-web-scraping:es":63},{"code":4,"message":5,"data":6},200,"操作成功",{"pack":7},{"slug":8,"icon":9,"tone":10,"status":11,"status_label":12,"title":13,"description":14,"items":15,"install_cmd":62},"ai-web-scraping","🕷","#0369A1","stable","Estable","Scraping para IA","Firecrawl, Crawlee, Crawl4AI, GPT Crawler, ScrapeGraphAI — motores que devuelven markdown listo para LLM, no HTML crudo.",[16,28,38,46,54],{"id":17,"uuid":18,"slug":19,"title":20,"description":21,"author_name":22,"view_count":23,"vote_count":24,"lang_type":25,"type":26,"type_label":27},744,"6a62a986-9f1a-4a59-88c8-b99151986854","firecrawl-web-scraping-api-ai-applications-6a62a986","Firecrawl — Web Scraping API for AI Applications","Turn any website into clean markdown or structured data for LLMs. Firecrawl handles JavaScript rendering, anti-bot bypassing, sitemaps, and batch crawling via simple API.","Firecrawl",279,0,"en","skill","Skill",{"id":29,"uuid":30,"slug":31,"title":32,"description":33,"author_name":34,"view_count":35,"vote_count":24,"lang_type":25,"type":36,"type_label":37},412,"3e8c6e91-e10e-45ba-9206-d6e3a9958c6a","crawlee-production-web-scraping-node-js-3e8c6e91","Crawlee — Production Web Scraping for Node.js","Build reliable crawlers with automatic proxy rotation, request queuing, and browser automation. By Apify. 22K+ stars.","Apify",267,"script","Script",{"id":39,"uuid":40,"slug":41,"title":42,"description":43,"author_name":44,"view_count":45,"vote_count":24,"lang_type":25,"type":26,"type_label":27},172,"cb19c9d4-6c2a-4443-80eb-043a440d79eb","crawl4ai-llm-friendly-web-crawling-cb19c9d4","Crawl4AI — LLM-Friendly Web Crawling","Open-source web crawler optimized for AI and LLM use cases. Extracts clean markdown, handles JavaScript-rendered pages, and supports structured data extraction.","Crawl4AI",297,{"id":47,"uuid":48,"slug":49,"title":50,"description":51,"author_name":52,"view_count":53,"vote_count":24,"lang_type":25,"type":26,"type_label":27},238,"bbd3962b-db9b-4ce9-9efe-31f44d08fdff","gpt-crawler-build-custom-gpts-any-website-bbd3962b","GPT Crawler — Build Custom GPTs from Any Website","Crawl any website to generate knowledge files for custom GPTs and RAG. Output as JSON for OpenAI GPTs or any LLM knowledge base. Zero config. 22K+ stars.","AI Open Source",223,{"id":55,"uuid":56,"slug":57,"title":58,"description":59,"author_name":60,"view_count":61,"vote_count":24,"lang_type":25,"type":26,"type_label":27},243,"d34e3181-e3f5-4853-871e-83acafe0c60e","scrapegraphai-ai-powered-web-scraping-d34e3181","ScrapeGraphAI — AI-Powered Web Scraping","Python scraping library powered by LLMs. Describe what you want to extract in natural language, get structured data back. Handles dynamic pages. 23K+ stars.","Script Depot",352,"tokrepo install pack\u002Fai-web-scraping",{"pageType":64,"pageKey":8,"locale":65,"title":66,"metaDescription":67,"h1":13,"tldr":68,"bodyMarkdown":69,"faq":70,"schema":86,"internalLinks":96,"citations":108,"wordCount":121,"generatedAt":122},"pack","es","Scraping para IA: 5 motores con salida markdown LLM","Firecrawl, Crawlee, Crawl4AI, GPT Crawler, ScrapeGraphAI — scrapers que devuelven markdown limpio para RAG en vez de HTML crudo. Instala con TokRepo.","Cinco motores de scraping open-source que se saltan el infierno de BeautifulSoup y devuelven markdown listo para LLM. Instala el pack vía TokRepo o elige el motor que encaje en tu stack.","## Qué incluye este pack\n\n| # | Motor | Fortaleza | Lenguaje |\n|---|---|---|---|\n| 1 | Firecrawl | API hosted + self-host, render JS, crawl de sitemap | TypeScript |\n| 2 | Crawlee | framework completo de crawler con rotación de proxies | TypeScript \u002F Python |\n| 3 | Crawl4AI | markdown optimizado para RAG, crawl async más rápido | Python |\n| 4 | GPT Crawler | crawl de knowledge-base con un archivo de config | TypeScript |\n| 5 | ScrapeGraphAI | extracción dirigida por LLM vía prompt + schema | Python |\n\nLas cinco herramientas convergen en el mismo insight: alimentar HTML crudo a un LLM es un impuesto de tokens. Cuando ya quitaste navbars, ads, scripts y estilos inline, has quemado miles de tokens en nada. Los scrapers AI-native hacen esa conversión en el borde del crawler para que tu capa de retrieval vea markdown limpio.\n\n## Por qué el scraping cambió en 2026\n\nTres cambios jubilaron el playbook clásico.\n\nPrimero, el render JavaScript es base. SPAs y sitios edge-rendered esconden contenido tras hydration. El stack de 2018 (`requests` + BeautifulSoup) devuelve cáscaras. Los motores modernos envuelven Chromium headless y esperan al evento network-idle correcto antes de extraer.\n\nSegundo, el destino es retrieval, no display. La salida no va a un índice de búsqueda — va a una vector database para RAG. Eso cambia el target de optimización de \"renderiza en navegador\" a \"cabe limpio en 8k tokens\".\n\nTercero, el anti-bot escaló. Cloudflare, DataDome y PerimeterX bloquean scrapers naïve en segundos. Firecrawl y Crawlee resuelven esto con proxies residenciales rotantes, randomización de fingerprint y lógica de retry — features que de otro modo improvisas durante semanas.\n\n## Instala en un comando\n\n```bash\n# Instala el pack completo\ntokrepo install pack\u002Fai-web-scraping\n\n# O elige el motor que encaja en tu stack\ntokrepo install firecrawl\ntokrepo install crawl4ai\ntokrepo install scrapegraphai\n```\n\nLa página TokRepo de cada recurso incluye comandos de instalación, configuración recomendada, y los adaptadores de salida más comunes (markdown, JSONL, insert directo a vector-db).\n\n## Trampas comunes\n\n- **Robots.txt y rate limits**: respétalos. La mayoría de motores tienen `respect_robots_txt` activado por defecto; apagarlo invita bans de IP y problemas legales. Define delays educados.\n- **Páginas JavaScript sin render JS**: si Firecrawl\u002FCrawl4AI devuelve vacío, estás golpeando un sitio con hydration sin habilitar render. Activa la opción JS.\n- **Drift de markdown**: diferentes motores emiten variantes ligeramente distintas (tablas, code blocks, notas). Normaliza post-crawl si mezclas motores para el mismo corpus RAG.\n- **PDFs\u002FOffice disfrazados de páginas web**: scrapers web no los extraen. Pásalo al pack Document AI Pipeline.\n- **Contenido tras login**: scraping detrás de auth es frágil y a menudo viola ToS. Usa la API oficial donde exista.\n\n## Cuando este pack solo no basta\n\nEste pack es la capa de *extracción*. Para completar un pipeline RAG también necesitas:\n\n- Una vector database — ver pack Vector DB Showdown (Chroma, Weaviate, Qdrant)\n- Paso de chunking + embedding — usualmente con LangChain o LlamaIndex\n- Loop de eval — pack LLM Eval & Guardrails para puntuar relevancia\n\nPara PDFs y Office, cambia al pack Document AI Pipeline. Para scraping interactivo (rellenar formularios, navegar wizards), el pack Browser Automation es la herramienta — esos sitios necesitan interacción estilo Playwright, no crawl.\n\n## Cómo elegir el motor\n\n- **Quieres una API hosted y no te molesta pagar la infra gestionada**: Firecrawl. Mejor dev-ex de los cinco, render JS y rotación de proxies built-in.\n- **Necesitas scrapear millones de páginas en hardware propio**: Crawlee. El framework de crawler más maduro, con persistencia de cola y runs reanudables.\n- **Construyes ingesta RAG con Python**: Crawl4AI. Diseño async-first alcanza 3-5x throughput vs crawlers síncronos en la misma máquina.\n- **Exportación one-time de knowledge-base para un chatbot**: GPT Crawler. Un solo `config.ts` apunta a un dominio y sale un JSONL listo para subir a OpenAI.\n- **Páginas con schema irregular donde quieres extraer por intención**: ScrapeGraphAI. Le pasas un modelo Pydantic y un prompt; descubre los selectores por página.",[71,74,77,80,83],{"q":72,"a":73},"¿Son gratis estas herramientas?","Las cinco son open-source. Firecrawl ofrece un tier SaaS hosted con cuota gratis, pero puedes self-host gratis. Crawlee, Crawl4AI, GPT Crawler y ScrapeGraphAI son 100% self-hosted con licencia BSD\u002FMIT. El coste oculto son servicios de proxy si scrapeas sitios con anti-bot agresivo — espera $50-200\u002Fmes en proxies residenciales para cargas reales.",{"q":75,"a":76},"¿Firecrawl o Crawl4AI?","Firecrawl si quieres endpoint hosted y no te molesta pagar por infra gestionada; su API es más simple y el render JS es sólido. Crawl4AI si eres Python-native y quieres throughput máximo en self-host; su arquitectura async supera a Firecrawl en velocidad pura pero requiere más ops glue. Para un agente Cursor\u002FCodex CLI llamando tools, ambos sirven — Firecrawl tiene menos pasos de setup.",{"q":78,"a":79},"¿Funcionará con Cursor o Codex CLI como herramienta?","Sí — la mayoría tiene MCP servers o APIs HTTP que cualquier herramienta IA con tool-calling puede invocar. Firecrawl lleva un MCP server oficial. Crawl4AI expone una función Python que puedes envolver. Mete la config MCP en los ajustes de Cursor o tu definición de agent Codex CLI y el LLM podrá scrapear bajo demanda.",{"q":81,"a":82},"¿En qué difiere del pack Browser Automation?","Scraping es extracción primero: quieres markdown listo-LLM de una página cuya URL puedes predecir. Browser automation es interacción primero: clicas, rellenas, navegas, capturas. Hay solapamiento (ambos usan Chromium headless), pero la API y el flujo típico difieren. Si construyes corpus RAG, este pack. Si rellenas formularios, Browser Automation.",{"q":84,"a":85},"¿Cuál es la trampa operativa?","Token blow-up por crawls demasiado ávidos. Un sitemap con 10k páginas a 5k tokens cada una = 50M tokens de coste de embedding — fácilmente $500+ a precios OpenAI. Define siempre `max_pages` y `max_depth` primero, muestrea 50 páginas, cuenta tokens, proyecta la factura, luego suelta. Barato olvidarlo, caro arreglarlo.",{"@context":87,"@type":88,"name":89,"description":90,"numberOfItems":91,"publisher":92},"https:\u002F\u002Fschema.org","CollectionPage","AI Web Scraping","Five scraping engines that output LLM-ready markdown — Firecrawl, Crawlee, Crawl4AI, GPT Crawler, ScrapeGraphAI.",5,{"@type":93,"name":94,"url":95},"Organization","TokRepo","https:\u002F\u002Ftokrepo.com",[97,101,105],{"url":98,"anchor":99,"reason":100},"\u002Fes\u002Fpacks\u002Fdocument-ai-pipeline","Pipeline Documento → IA","complemento para ingesta de PDF\u002FOffice",{"url":102,"anchor":103,"reason":104},"\u002Fes\u002Fpacks\u002Fbrowser-automation","Automatización de Navegador","alternativa orientada a interacción",{"url":106,"anchor":22,"reason":107},"\u002Fes\u002Ftools\u002Ffirecrawl","el motor más popular del pack",[109,113,117],{"claim":110,"source_name":111,"source_url":112},"Firecrawl turns websites into LLM-ready markdown via a hosted or self-hosted API","mendableai\u002Ffirecrawl","https:\u002F\u002Fgithub.com\u002Fmendableai\u002Ffirecrawl",{"claim":114,"source_name":115,"source_url":116},"Crawlee is the open-source web crawling and browser automation library by Apify","apify\u002Fcrawlee","https:\u002F\u002Fgithub.com\u002Fapify\u002Fcrawlee",{"claim":118,"source_name":119,"source_url":120},"Crawl4AI is open-source and optimized for retrieval-augmented LLM input","unclecode\u002Fcrawl4ai","https:\u002F\u002Fgithub.com\u002Funclecode\u002Fcrawl4ai",672,"2026-05-02T15:00:00Z"]