[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"pack-detail-ai-web-scraping-fr":3,"seo:pack:ai-web-scraping:fr":63},{"code":4,"message":5,"data":6},200,"操作成功",{"pack":7},{"slug":8,"icon":9,"tone":10,"status":11,"status_label":12,"title":13,"description":14,"items":15,"install_cmd":62},"ai-web-scraping","🕷","#0369A1","stable","Stable","Scraping pour IA","Firecrawl, Crawlee, Crawl4AI, GPT Crawler, ScrapeGraphAI — moteurs qui renvoient du markdown prêt pour LLM, pas du HTML brut.",[16,28,38,46,54],{"id":17,"uuid":18,"slug":19,"title":20,"description":21,"author_name":22,"view_count":23,"vote_count":24,"lang_type":25,"type":26,"type_label":27},744,"6a62a986-9f1a-4a59-88c8-b99151986854","firecrawl-web-scraping-api-ai-applications-6a62a986","Firecrawl — Web Scraping API for AI Applications","Turn any website into clean markdown or structured data for LLMs. Firecrawl handles JavaScript rendering, anti-bot bypassing, sitemaps, and batch crawling via simple API.","Firecrawl",280,0,"en","skill","Skill",{"id":29,"uuid":30,"slug":31,"title":32,"description":33,"author_name":34,"view_count":35,"vote_count":24,"lang_type":25,"type":36,"type_label":37},412,"3e8c6e91-e10e-45ba-9206-d6e3a9958c6a","crawlee-production-web-scraping-node-js-3e8c6e91","Crawlee — Production Web Scraping for Node.js","Build reliable crawlers with automatic proxy rotation, request queuing, and browser automation. By Apify. 22K+ stars.","Apify",269,"script","Script",{"id":39,"uuid":40,"slug":41,"title":42,"description":43,"author_name":44,"view_count":45,"vote_count":24,"lang_type":25,"type":26,"type_label":27},172,"cb19c9d4-6c2a-4443-80eb-043a440d79eb","crawl4ai-llm-friendly-web-crawling-cb19c9d4","Crawl4AI — LLM-Friendly Web Crawling","Open-source web crawler optimized for AI and LLM use cases. Extracts clean markdown, handles JavaScript-rendered pages, and supports structured data extraction.","Crawl4AI",298,{"id":47,"uuid":48,"slug":49,"title":50,"description":51,"author_name":52,"view_count":53,"vote_count":24,"lang_type":25,"type":26,"type_label":27},238,"bbd3962b-db9b-4ce9-9efe-31f44d08fdff","gpt-crawler-build-custom-gpts-any-website-bbd3962b","GPT Crawler — Build Custom GPTs from Any Website","Crawl any website to generate knowledge files for custom GPTs and RAG. Output as JSON for OpenAI GPTs or any LLM knowledge base. Zero config. 22K+ stars.","AI Open Source",224,{"id":55,"uuid":56,"slug":57,"title":58,"description":59,"author_name":60,"view_count":61,"vote_count":24,"lang_type":25,"type":26,"type_label":27},243,"d34e3181-e3f5-4853-871e-83acafe0c60e","scrapegraphai-ai-powered-web-scraping-d34e3181","ScrapeGraphAI — AI-Powered Web Scraping","Python scraping library powered by LLMs. Describe what you want to extract in natural language, get structured data back. Handles dynamic pages. 23K+ stars.","Script Depot",352,"tokrepo install pack\u002Fai-web-scraping",{"pageType":64,"pageKey":8,"locale":65,"title":66,"metaDescription":67,"h1":13,"tldr":68,"bodyMarkdown":69,"faq":70,"schema":86,"internalLinks":96,"citations":108,"wordCount":121,"generatedAt":122},"pack","fr","Scraping pour IA : 5 moteurs sortant du markdown LLM","Firecrawl, Crawlee, Crawl4AI, GPT Crawler, ScrapeGraphAI — scrapers qui renvoient du markdown propre pour RAG au lieu de HTML brut. Installez avec TokRepo.","Cinq moteurs de scraping open-source qui évitent l'enfer BeautifulSoup et renvoient du markdown prêt pour LLM. Installez le pack via TokRepo, ou choisissez le moteur qui correspond à votre stack.","## Ce que contient ce pack\n\n| # | Moteur | Force | Langage |\n|---|---|---|---|\n| 1 | Firecrawl | API hosted + self-host, render JS, crawl de sitemap | TypeScript |\n| 2 | Crawlee | framework complet de crawler avec rotation de proxies | TypeScript \u002F Python |\n| 3 | Crawl4AI | markdown optimisé RAG, crawl async le plus rapide | Python |\n| 4 | GPT Crawler | crawl de knowledge-base avec un fichier de config | TypeScript |\n| 5 | ScrapeGraphAI | extraction pilotée par LLM via prompt + schema | Python |\n\nLes cinq outils convergent vers le même insight : nourrir un LLM en HTML brut est une taxe sur les tokens. Le temps d'enlever navbars, pubs, scripts et styles inline, vous avez brûlé des milliers de tokens pour rien. Les scrapers AI-native font cette conversion au bord du crawler pour que votre couche retrieval voie du markdown propre.\n\n## Pourquoi le scraping a changé en 2026\n\nTrois changements ont retraité le playbook classique.\n\nD'abord, le rendu JavaScript est devenu de base. Les SPAs et sites edge-rendered cachent le contenu derrière l'hydratation. Le stack 2018 (`requests` + BeautifulSoup) renvoie des coquilles. Les moteurs modernes wrappent Chromium headless et attendent le bon événement network-idle avant d'extraire.\n\nEnsuite, la destination est le retrieval, pas l'affichage. La sortie ne va pas dans un index de recherche — elle va dans une vector database pour le RAG. Cela change la cible d'optimisation de \"rendu navigateur\" à \"tient propre dans 8k tokens\".\n\nEnfin, l'anti-bot a escaladé. Cloudflare, DataDome et PerimeterX bloquent les scrapers naïfs en secondes. Firecrawl et Crawlee résolvent ça avec rotation de proxies résidentiels, randomisation de fingerprint et logique de retry — des features qu'on bricole sinon pendant des semaines.\n\n## Installer en une commande\n\n```bash\n# Installe tout le pack\ntokrepo install pack\u002Fai-web-scraping\n\n# Ou choisissez le moteur qui correspond à votre stack\ntokrepo install firecrawl\ntokrepo install crawl4ai\ntokrepo install scrapegraphai\n```\n\nLa page TokRepo de chaque ressource inclut commandes d'install, config recommandée, et les adaptateurs de sortie courants (markdown, JSONL, insertion directe vector-db).\n\n## Pièges courants\n\n- **Robots.txt et rate limits** : respectez-les. La plupart des moteurs ont `respect_robots_txt` activé par défaut ; le désactiver invite les bans IP et les ennuis légaux. Définissez des délais polis.\n- **Pages JavaScript sans rendu JS** : si Firecrawl\u002FCrawl4AI renvoie du vide, vous frappez un site avec hydratation sans rendu activé. Basculez l'option JS.\n- **Drift markdown** : différents moteurs émettent des variantes légèrement différentes (tables, code blocks, notes). Normalisez post-crawl si vous mélangez les moteurs pour le même corpus RAG.\n- **PDFs\u002FOffice déguisés en pages web** : les scrapers web ne les extraient pas. Passez la main au pack Document AI Pipeline.\n- **Contenu derrière login** : scraping derrière auth est fragile et viole souvent les ToS. Utilisez l'API officielle quand elle existe.\n\n## Quand ce pack seul ne suffit pas\n\nCe pack est la couche d'*extraction*. Pour compléter un pipeline RAG il faut aussi :\n\n- Une vector database — voir le pack Comparatif Vector DB (Chroma, Weaviate, Qdrant)\n- Une étape chunking + embedding — généralement avec LangChain ou LlamaIndex\n- Une boucle d'eval — pack Eval & Guardrails LLM pour scorer la pertinence\n\nPour les PDFs et Office, basculez vers le pack Pipeline Document → IA. Pour le scraping interactif (remplir des formulaires, traverser des wizards), le pack Automatisation Navigateur est l'outil — ces sites ont besoin d'interaction style Playwright, pas de crawl.\n\n## Comment choisir le moteur\n\n- **Vous voulez une API hosted sans gérer l'infra** : Firecrawl. Meilleur dev-ex des cinq, rendu JS et rotation proxy built-in.\n- **Il faut scraper des millions de pages sur du hardware perso** : Crawlee. Le framework de crawler le plus mature, avec persistance de queue et runs reprenables.\n- **Vous construisez une ingest RAG en Python** : Crawl4AI. Design async-first, 3-5x le throughput des crawlers synchrones sur la même machine.\n- **Export one-shot de knowledge-base pour un chatbot** : GPT Crawler. Un seul `config.ts` pointe vers un domaine et un JSONL sort prêt à uploader sur OpenAI.\n- **Pages au schema irrégulier où vous voulez extraire par intention** : ScrapeGraphAI. Vous lui passez un modèle Pydantic et un prompt ; il trouve les sélecteurs page par page.",[71,74,77,80,83],{"q":72,"a":73},"Ces outils sont-ils gratuits ?","Les cinq sont open-source. Firecrawl propose un tier SaaS hosted avec quota gratuit, mais vous pouvez le self-host gratuitement. Crawlee, Crawl4AI, GPT Crawler et ScrapeGraphAI sont 100% self-hosted sous licence BSD\u002FMIT. Le coût caché ce sont les services proxy si vous scrapez des sites à anti-bot agressif — comptez 50-200 $\u002Fmois en proxies résidentiels pour des charges réelles.",{"q":75,"a":76},"Firecrawl ou Crawl4AI ?","Firecrawl si vous voulez un endpoint hosted et acceptez de payer l'infra gérée ; son API est plus simple et le rendu JS solide. Crawl4AI si vous êtes Python-native et voulez le throughput max en self-host ; son architecture async dépasse Firecrawl en vitesse brute mais demande plus d'ops glue. Pour un agent Cursor\u002FCodex CLI appelant des outils, les deux marchent — Firecrawl a moins d'étapes de setup.",{"q":78,"a":79},"Ça marche avec Cursor ou Codex CLI comme outil ?","Oui — la plupart ont des serveurs MCP ou des APIs HTTP que tout outil IA avec tool-calling peut invoquer. Firecrawl livre un serveur MCP officiel. Crawl4AI expose une fonction Python que vous pouvez wrapper. Glissez la config MCP dans les paramètres Cursor ou votre définition d'agent Codex CLI et le LLM pourra scraper à la demande.",{"q":81,"a":82},"En quoi diffère du pack Automatisation Navigateur ?","Scraping = extraction d'abord : vous voulez du markdown prêt-LLM d'une page dont vous prédisez l'URL. Automatisation navigateur = interaction d'abord : cliquer, remplir, naviguer, capturer. Il y a chevauchement (les deux utilisent Chromium headless), mais l'API et le flux typique diffèrent. Pour un corpus RAG, ce pack. Pour remplir des formulaires, Automatisation Navigateur.",{"q":84,"a":85},"Quel est le piège opérationnel ?","Token blow-up dû à des crawls trop avides. Un sitemap de 10k pages × 5k tokens chacune = 50M tokens de coût d'embedding — facilement 500 $+ aux prix OpenAI. Définissez toujours `max_pages` et `max_depth` d'abord, échantillonnez 50 pages, comptez les tokens, projetez la facture, puis lâchez. Pas cher d'oublier, cher de réparer.",{"@context":87,"@type":88,"name":89,"description":90,"numberOfItems":91,"publisher":92},"https:\u002F\u002Fschema.org","CollectionPage","AI Web Scraping","Five scraping engines that output LLM-ready markdown — Firecrawl, Crawlee, Crawl4AI, GPT Crawler, ScrapeGraphAI.",5,{"@type":93,"name":94,"url":95},"Organization","TokRepo","https:\u002F\u002Ftokrepo.com",[97,101,105],{"url":98,"anchor":99,"reason":100},"\u002Ffr\u002Fpacks\u002Fdocument-ai-pipeline","Pipeline Document → IA","complément pour ingestion PDF\u002FOffice",{"url":102,"anchor":103,"reason":104},"\u002Ffr\u002Fpacks\u002Fbrowser-automation","Automatisation Navigateur","alternative orientée interaction",{"url":106,"anchor":22,"reason":107},"\u002Ffr\u002Ftools\u002Ffirecrawl","le moteur le plus populaire du pack",[109,113,117],{"claim":110,"source_name":111,"source_url":112},"Firecrawl turns websites into LLM-ready markdown via a hosted or self-hosted API","mendableai\u002Ffirecrawl","https:\u002F\u002Fgithub.com\u002Fmendableai\u002Ffirecrawl",{"claim":114,"source_name":115,"source_url":116},"Crawlee is the open-source web crawling and browser automation library by Apify","apify\u002Fcrawlee","https:\u002F\u002Fgithub.com\u002Fapify\u002Fcrawlee",{"claim":118,"source_name":119,"source_url":120},"Crawl4AI is open-source and optimized for retrieval-augmented LLM input","unclecode\u002Fcrawl4ai","https:\u002F\u002Fgithub.com\u002Funclecode\u002Fcrawl4ai",716,"2026-05-02T15:00:00Z"]