Wikipédia répond aux scrapers IA avec un jeu de données structuré.

Source : Pexels
Le développement rapide des modèles de langage de grande taille (LLM) repose en grande partie sur les contenus accessibles librement sur Internet. L’une des techniques les plus utilisées pour les collecter est le web scraping, qui implique l’extraction automatisée de données à grande échelle. Cette méthode a un coût invisible mais bien réel : elle met une pression importante sur l’infrastructure des sites ciblés.
C’est le cas de Wikipédia, l’une des ressources les plus précieuses du web, mais aussi l’une des plus aspirées.
Plutôt que de bloquer l’accès aux bots, la Wikimedia Foundation a choisi une approche différente : fournir aux scrapers un accès direct à des données structurées, mieux adaptées à l’entraînement des IA.
Un partenariat avec Kaggle pour un accès optimisé
Wikimedia a annoncé un partenariat avec Kaggle, la plateforme communautaire de science des données appartenant à Google, pour publier un jeu de données structuré en JSON, contenant du contenu nettoyé et segmenté provenant de Wikipédia en anglais et en français.
L’objectif : réduire la charge sur les serveurs tout en proposant aux chercheurs et développeurs un accès plus simple, plus propre et plus efficace à des données de qualité.
Ce jeu de données contient :
des résumés d’articles
des infobox
des descriptions courtes
des liens vers les images
une structuration des différentes sections
Le tout est mis à disposition sous licence Creative Commons, avec certaines variations en fonction des contenus (domaine public ou autres licences spécifiques).
Une infrastructure sous tension
Dans un rapport publié récemment, la Wikimedia Foundation indique que les requêtes vers ses serveurs ont bondi de 50 % depuis le début de l’année 2024. La fondation précise que cette augmentation n’est pas liée à une hausse du trafic humain, mais bien à une activité automatisée : des bots qui collectent textes et images pour entraîner des IA.
Cette situation crée une tension importante sur les ressources techniques de la fondation : « Notre contenu est gratuit, mais notre infrastructure ne l’est pas », alerte-t-elle dans son communiqué.
Une réponse pragmatique à un problème global
Plutôt que d’interdire purement et simplement l’accès aux bots, comme le font certains éditeurs, la fondation propose une solution constructive et open source, qui vise à préserver l’accès humain à la connaissance tout en encadrant l’usage automatisé.
Cette initiative s’inscrit dans un mouvement plus large. Cloudflare, par exemple, développe une solution baptisée AI Labyrinth, qui piège les crawlers IA en les redirigeant vers de fausses pages remplies de contenus neutres sans valeur d’entraînement.
La guerre entre éditeurs de contenus et collecteurs de données IA est donc loin d’être terminée. Mais des approches comme celle de Wikipédia pourraient bien tracer une voie médiane, plus durable pour l’écosystème numérique.