TOKREPO · ARSENAL
Stable

Scraping pour IA

Firecrawl, Crawlee, Crawl4AI, GPT Crawler, ScrapeGraphAI — moteurs qui renvoient du markdown prêt pour LLM, pas du HTML brut.

5 ressources

Ce que contient ce pack

# Moteur Force Langage
1 Firecrawl API hosted + self-host, render JS, crawl de sitemap TypeScript
2 Crawlee framework complet de crawler avec rotation de proxies TypeScript / Python
3 Crawl4AI markdown optimisé RAG, crawl async le plus rapide Python
4 GPT Crawler crawl de knowledge-base avec un fichier de config TypeScript
5 ScrapeGraphAI extraction pilotée par LLM via prompt + schema Python

Les cinq outils convergent vers le même insight : nourrir un LLM en HTML brut est une taxe sur les tokens. Le temps d'enlever navbars, pubs, scripts et styles inline, vous avez brûlé des milliers de tokens pour rien. Les scrapers AI-native font cette conversion au bord du crawler pour que votre couche retrieval voie du markdown propre.

Pourquoi le scraping a changé en 2026

Trois changements ont retraité le playbook classique.

D'abord, le rendu JavaScript est devenu de base. Les SPAs et sites edge-rendered cachent le contenu derrière l'hydratation. Le stack 2018 (requests + BeautifulSoup) renvoie des coquilles. Les moteurs modernes wrappent Chromium headless et attendent le bon événement network-idle avant d'extraire.

Ensuite, la destination est le retrieval, pas l'affichage. La sortie ne va pas dans un index de recherche — elle va dans une vector database pour le RAG. Cela change la cible d'optimisation de "rendu navigateur" à "tient propre dans 8k tokens".

Enfin, l'anti-bot a escaladé. Cloudflare, DataDome et PerimeterX bloquent les scrapers naïfs en secondes. Firecrawl et Crawlee résolvent ça avec rotation de proxies résidentiels, randomisation de fingerprint et logique de retry — des features qu'on bricole sinon pendant des semaines.

Installer en une commande

# Installe tout le pack
tokrepo install pack/ai-web-scraping

# Ou choisissez le moteur qui correspond à votre stack
tokrepo install firecrawl
tokrepo install crawl4ai
tokrepo install scrapegraphai

La page TokRepo de chaque ressource inclut commandes d'install, config recommandée, et les adaptateurs de sortie courants (markdown, JSONL, insertion directe vector-db).

Pièges courants

  • Robots.txt et rate limits : respectez-les. La plupart des moteurs ont respect_robots_txt activé par défaut ; le désactiver invite les bans IP et les ennuis légaux. Définissez des délais polis.
  • Pages JavaScript sans rendu JS : si Firecrawl/Crawl4AI renvoie du vide, vous frappez un site avec hydratation sans rendu activé. Basculez l'option JS.
  • Drift markdown : différents moteurs émettent des variantes légèrement différentes (tables, code blocks, notes). Normalisez post-crawl si vous mélangez les moteurs pour le même corpus RAG.
  • PDFs/Office déguisés en pages web : les scrapers web ne les extraient pas. Passez la main au pack Document AI Pipeline.
  • Contenu derrière login : scraping derrière auth est fragile et viole souvent les ToS. Utilisez l'API officielle quand elle existe.

Quand ce pack seul ne suffit pas

Ce pack est la couche d'extraction. Pour compléter un pipeline RAG il faut aussi :

  • Une vector database — voir le pack Comparatif Vector DB (Chroma, Weaviate, Qdrant)
  • Une étape chunking + embedding — généralement avec LangChain ou LlamaIndex
  • Une boucle d'eval — pack Eval & Guardrails LLM pour scorer la pertinence

Pour les PDFs et Office, basculez vers le pack Pipeline Document → IA. Pour le scraping interactif (remplir des formulaires, traverser des wizards), le pack Automatisation Navigateur est l'outil — ces sites ont besoin d'interaction style Playwright, pas de crawl.

Comment choisir le moteur

  • Vous voulez une API hosted sans gérer l'infra : Firecrawl. Meilleur dev-ex des cinq, rendu JS et rotation proxy built-in.
  • Il faut scraper des millions de pages sur du hardware perso : Crawlee. Le framework de crawler le plus mature, avec persistance de queue et runs reprenables.
  • Vous construisez une ingest RAG en Python : Crawl4AI. Design async-first, 3-5x le throughput des crawlers synchrones sur la même machine.
  • Export one-shot de knowledge-base pour un chatbot : GPT Crawler. Un seul config.ts pointe vers un domaine et un JSONL sort prêt à uploader sur OpenAI.
  • Pages au schema irrégulier où vous voulez extraire par intention : ScrapeGraphAI. Vous lui passez un modèle Pydantic et un prompt ; il trouve les sélecteurs page par page.
INSTALLER · UNE COMMANDE
$ tokrepo install pack/ai-web-scraping
passez-la à votre agent — ou collez-la dans votre terminal
Ce qu'il contient

5 ressources prêtes à installer

Script#01
Firecrawl — Web Scraping API for AI Applications

Turn any website into clean markdown or structured data for LLMs. Firecrawl handles JavaScript rendering, anti-bot bypassing, sitemaps, and batch crawling via simple API.

by Prompt Lab·97 views
$ tokrepo install firecrawl-web-scraping-api-ai-applications-6a62a986
Script#02
Crawlee — Production Web Scraping for Node.js

Build reliable crawlers with automatic proxy rotation, request queuing, and browser automation. By Apify. 22K+ stars.

by Script Depot·97 views
$ tokrepo install crawlee-production-web-scraping-node-js-3e8c6e91
Script#03
Crawl4AI — LLM-Friendly Web Crawling

Open-source web crawler optimized for AI and LLM use cases. Extracts clean markdown, handles JavaScript-rendered pages, and supports structured data extraction.

by Script Depot·96 views
$ tokrepo install crawl4ai-llm-friendly-web-crawling-cb19c9d4
Config#04
GPT Crawler — Build Custom GPTs from Any Website

Crawl any website to generate knowledge files for custom GPTs and RAG. Output as JSON for OpenAI GPTs or any LLM knowledge base. Zero config. 22K+ stars.

by AI Open Source·97 views
$ tokrepo install gpt-crawler-build-custom-gpts-any-website-bbd3962b
Script#05
ScrapeGraphAI — AI-Powered Web Scraping

Python scraping library powered by LLMs. Describe what you want to extract in natural language, get structured data back. Handles dynamic pages. 23K+ stars.

by Script Depot·96 views
$ tokrepo install scrapegraphai-ai-powered-web-scraping-d34e3181
FAQ

Questions fréquentes

Ces outils sont-ils gratuits ?

Les cinq sont open-source. Firecrawl propose un tier SaaS hosted avec quota gratuit, mais vous pouvez le self-host gratuitement. Crawlee, Crawl4AI, GPT Crawler et ScrapeGraphAI sont 100% self-hosted sous licence BSD/MIT. Le coût caché ce sont les services proxy si vous scrapez des sites à anti-bot agressif — comptez 50-200 $/mois en proxies résidentiels pour des charges réelles.

Firecrawl ou Crawl4AI ?

Firecrawl si vous voulez un endpoint hosted et acceptez de payer l'infra gérée ; son API est plus simple et le rendu JS solide. Crawl4AI si vous êtes Python-native et voulez le throughput max en self-host ; son architecture async dépasse Firecrawl en vitesse brute mais demande plus d'ops glue. Pour un agent Cursor/Codex CLI appelant des outils, les deux marchent — Firecrawl a moins d'étapes de setup.

Ça marche avec Cursor ou Codex CLI comme outil ?

Oui — la plupart ont des serveurs MCP ou des APIs HTTP que tout outil IA avec tool-calling peut invoquer. Firecrawl livre un serveur MCP officiel. Crawl4AI expose une fonction Python que vous pouvez wrapper. Glissez la config MCP dans les paramètres Cursor ou votre définition d'agent Codex CLI et le LLM pourra scraper à la demande.

En quoi diffère du pack Automatisation Navigateur ?

Scraping = extraction d'abord : vous voulez du markdown prêt-LLM d'une page dont vous prédisez l'URL. Automatisation navigateur = interaction d'abord : cliquer, remplir, naviguer, capturer. Il y a chevauchement (les deux utilisent Chromium headless), mais l'API et le flux typique diffèrent. Pour un corpus RAG, ce pack. Pour remplir des formulaires, Automatisation Navigateur.

Quel est le piège opérationnel ?

Token blow-up dû à des crawls trop avides. Un sitemap de 10k pages × 5k tokens chacune = 50M tokens de coût d'embedding — facilement 500 $+ aux prix OpenAI. Définissez toujours max_pages et max_depth d'abord, échantillonnez 50 pages, comptez les tokens, projetez la facture, puis lâchez. Pas cher d'oublier, cher de réparer.

PLUS DANS L'ARSENAL

12 packs · 80+ ressources sélectionnées

Découvrez tous les packs curatés sur la page d'accueil

Retour à tous les packs