ChatGPT, Gemini, Claude et tous les autres LLM ont une chose en commun : ils ont été entrainés sur de gigantesques données du web qui ont été récupérées sans autorisation de la part des ayants droit. Ils sont continuellement alimentés par de telles procédures, ce qui n’est pas sans conséquence pour les médias. Certains sites constatent notamment une baisse drastique de leur trafic et les contenus sont continuellement pillés, ce qui constitue des manques à gagner pour leurs éditeurs et menace l’avenir d’internet, tel que nous le connaissons. C’est dans ce cadre que Cloudflare déploie un système qui bloque par défaut les robots d’exploration IA.
Sommaire :
Cloudflare sonne la fin du Far West des robots d’exploration IA
Au début de l’IA générative, les LLM avaient de difficulté à rester dans l’actualité, car ils ont été entrainés sur des données historiques. Mais la donne a changé quelques mois après, car ils ont été dotés de bras droits capables de parcourir le web pour continuellement les nourrir en temps réel. Ainsi, ils concentrent une grande majorité du trafic, réduisant de facto le trafic des humains sur les autres sites web. Ces bras droits que sont les robots d’indexation, dont GPTBot et ClaudeBot parcourent intensément le web, pour rassembler les contenus publiés et nourrir les modèles, afin qu’ils restent dans l’actualité.
Si ce système profite aux entreprises IA, il pénalise les éditeurs qui investissent chaque jour pour maintenir leurs médias. OpenAI et ses compères ne paient rien et leurs robots gonflent inutilement le trafic des médias, pillent les contenus et ralentissent parfois le trafic. Cloudflare y met un terme en bloquant par défaut tous les robots d’exploration IA.
“Si Internet compte survivre à l’ère de l’IA, nous devons donner aux éditeurs le contrôle qu’ils méritent et bâtir un nouveau modèle économique qui convienne à tous : aux créateurs, aux consommateurs, aux fondateurs de l’IA de demain et même à l’avenir du web lui-même “, explique le CEO de Cloudlare.
Ce système a été mis en place depuis le 1er juillet 2025. L’accès à tous les sites sous le contrôle de Cloudflare est systématiquement bloqué aux robots d’exploration IA. À moins d’avoir une autorisation explicite de la part du propriétaire, ils ne peuvent plus accéder aux contenus ni le scrapper. L’entreprise américaine affirme utiliser le machine learning pour détecter le fantôme de ces robots et les bloquer continuellement.
VOIR AUSSI : Les meilleures pratiques pour protéger vos données sur internet
Pay Per Crawl : un nouveau système de monétisation
Actuellement en bêta privée, le Pay Per Crawl est un système de monétisation que Cloudflare entend mettre en place afin que les éditeurs continuent de gagner leur vie en faisant ce qu’ils aiment. Avec ce modèle de monétisation, ils pourront eux-mêmes fixer le prix d’accès à leur contenu aux robots d’exploration IA.
Cloudflare sera le péage. Il laisserait passer ceux qui auraient payé et bloquerait l’accès aux resquilleurs. Avec ce système beaucoup plus efficace que les directives des fichiers robots.txt souvent outrepassées par les robots explorateurs, une grande partie du web sera inaccessible aux IA. Le droit d’auteur sur internet, souvent bafoué sans scrupule, pourrait ainsi être protégé.
IdealoGeek est un média indépendant. Soutiens-nous en nous ajoutant à tes favoris sur Google Actualités :






