Scraping pour IA
Firecrawl, Crawlee, Crawl4AI, GPT Crawler, ScrapeGraphAI — moteurs qui renvoient du markdown prêt pour LLM, pas du HTML brut.
Ce que contient ce pack
| # | Moteur | Force | Langage |
|---|---|---|---|
| 1 | Firecrawl | API hosted + self-host, render JS, crawl de sitemap | TypeScript |
| 2 | Crawlee | framework complet de crawler avec rotation de proxies | TypeScript / Python |
| 3 | Crawl4AI | markdown optimisé RAG, crawl async le plus rapide | Python |
| 4 | GPT Crawler | crawl de knowledge-base avec un fichier de config | TypeScript |
| 5 | ScrapeGraphAI | extraction pilotée par LLM via prompt + schema | Python |
Les cinq outils convergent vers le même insight : nourrir un LLM en HTML brut est une taxe sur les tokens. Le temps d'enlever navbars, pubs, scripts et styles inline, vous avez brûlé des milliers de tokens pour rien. Les scrapers AI-native font cette conversion au bord du crawler pour que votre couche retrieval voie du markdown propre.
Pourquoi le scraping a changé en 2026
Trois changements ont retraité le playbook classique.
D'abord, le rendu JavaScript est devenu de base. Les SPAs et sites edge-rendered cachent le contenu derrière l'hydratation. Le stack 2018 (requests + BeautifulSoup) renvoie des coquilles. Les moteurs modernes wrappent Chromium headless et attendent le bon événement network-idle avant d'extraire.
Ensuite, la destination est le retrieval, pas l'affichage. La sortie ne va pas dans un index de recherche — elle va dans une vector database pour le RAG. Cela change la cible d'optimisation de "rendu navigateur" à "tient propre dans 8k tokens".
Enfin, l'anti-bot a escaladé. Cloudflare, DataDome et PerimeterX bloquent les scrapers naïfs en secondes. Firecrawl et Crawlee résolvent ça avec rotation de proxies résidentiels, randomisation de fingerprint et logique de retry — des features qu'on bricole sinon pendant des semaines.
Installer en une commande
# Installe tout le pack
tokrepo install pack/ai-web-scraping
# Ou choisissez le moteur qui correspond à votre stack
tokrepo install firecrawl
tokrepo install crawl4ai
tokrepo install scrapegraphai
La page TokRepo de chaque ressource inclut commandes d'install, config recommandée, et les adaptateurs de sortie courants (markdown, JSONL, insertion directe vector-db).
Pièges courants
- Robots.txt et rate limits : respectez-les. La plupart des moteurs ont
respect_robots_txtactivé par défaut ; le désactiver invite les bans IP et les ennuis légaux. Définissez des délais polis. - Pages JavaScript sans rendu JS : si Firecrawl/Crawl4AI renvoie du vide, vous frappez un site avec hydratation sans rendu activé. Basculez l'option JS.
- Drift markdown : différents moteurs émettent des variantes légèrement différentes (tables, code blocks, notes). Normalisez post-crawl si vous mélangez les moteurs pour le même corpus RAG.
- PDFs/Office déguisés en pages web : les scrapers web ne les extraient pas. Passez la main au pack Document AI Pipeline.
- Contenu derrière login : scraping derrière auth est fragile et viole souvent les ToS. Utilisez l'API officielle quand elle existe.
Quand ce pack seul ne suffit pas
Ce pack est la couche d'extraction. Pour compléter un pipeline RAG il faut aussi :
- Une vector database — voir le pack Comparatif Vector DB (Chroma, Weaviate, Qdrant)
- Une étape chunking + embedding — généralement avec LangChain ou LlamaIndex
- Une boucle d'eval — pack Eval & Guardrails LLM pour scorer la pertinence
Pour les PDFs et Office, basculez vers le pack Pipeline Document → IA. Pour le scraping interactif (remplir des formulaires, traverser des wizards), le pack Automatisation Navigateur est l'outil — ces sites ont besoin d'interaction style Playwright, pas de crawl.
Comment choisir le moteur
- Vous voulez une API hosted sans gérer l'infra : Firecrawl. Meilleur dev-ex des cinq, rendu JS et rotation proxy built-in.
- Il faut scraper des millions de pages sur du hardware perso : Crawlee. Le framework de crawler le plus mature, avec persistance de queue et runs reprenables.
- Vous construisez une ingest RAG en Python : Crawl4AI. Design async-first, 3-5x le throughput des crawlers synchrones sur la même machine.
- Export one-shot de knowledge-base pour un chatbot : GPT Crawler. Un seul
config.tspointe vers un domaine et un JSONL sort prêt à uploader sur OpenAI. - Pages au schema irrégulier où vous voulez extraire par intention : ScrapeGraphAI. Vous lui passez un modèle Pydantic et un prompt ; il trouve les sélecteurs page par page.
5 ressources prêtes à installer
Questions fréquentes
Ces outils sont-ils gratuits ?
Les cinq sont open-source. Firecrawl propose un tier SaaS hosted avec quota gratuit, mais vous pouvez le self-host gratuitement. Crawlee, Crawl4AI, GPT Crawler et ScrapeGraphAI sont 100% self-hosted sous licence BSD/MIT. Le coût caché ce sont les services proxy si vous scrapez des sites à anti-bot agressif — comptez 50-200 $/mois en proxies résidentiels pour des charges réelles.
Firecrawl ou Crawl4AI ?
Firecrawl si vous voulez un endpoint hosted et acceptez de payer l'infra gérée ; son API est plus simple et le rendu JS solide. Crawl4AI si vous êtes Python-native et voulez le throughput max en self-host ; son architecture async dépasse Firecrawl en vitesse brute mais demande plus d'ops glue. Pour un agent Cursor/Codex CLI appelant des outils, les deux marchent — Firecrawl a moins d'étapes de setup.
Ça marche avec Cursor ou Codex CLI comme outil ?
Oui — la plupart ont des serveurs MCP ou des APIs HTTP que tout outil IA avec tool-calling peut invoquer. Firecrawl livre un serveur MCP officiel. Crawl4AI expose une fonction Python que vous pouvez wrapper. Glissez la config MCP dans les paramètres Cursor ou votre définition d'agent Codex CLI et le LLM pourra scraper à la demande.
En quoi diffère du pack Automatisation Navigateur ?
Scraping = extraction d'abord : vous voulez du markdown prêt-LLM d'une page dont vous prédisez l'URL. Automatisation navigateur = interaction d'abord : cliquer, remplir, naviguer, capturer. Il y a chevauchement (les deux utilisent Chromium headless), mais l'API et le flux typique diffèrent. Pour un corpus RAG, ce pack. Pour remplir des formulaires, Automatisation Navigateur.
Quel est le piège opérationnel ?
Token blow-up dû à des crawls trop avides. Un sitemap de 10k pages × 5k tokens chacune = 50M tokens de coût d'embedding — facilement 500 $+ aux prix OpenAI. Définissez toujours max_pages et max_depth d'abord, échantillonnez 50 pages, comptez les tokens, projetez la facture, puis lâchez. Pas cher d'oublier, cher de réparer.
12 packs · 80+ ressources sélectionnées
Découvrez tous les packs curatés sur la page d'accueil
Retour à tous les packs