#main-nav-header { display:none; }

Reprenez le contrôle des robots d’indexation d’IA

Comment protéger le contenu et renforcer la cybersécurité

Nous entrons dans une nouvelle ère pour l'Internet, marquée par l'IA. Cette nouvelle ère a commencé avec les bots IA, dont les robots d'indexation ou d'exploration et les extracteurs de sites web, qui collectent de plus en plus de données pour entraîner des modèles d'IA. L'exploration et l'extraction ne sont pas des nouveautés : les entreprises de moteurs de recherche ont toujours exploré les sites web et extrait du contenu pour remplir les résultats de recherche. Ce processus a toujours profité aux propriétaires de sites web, car les résultats de recherche redirigeaient le trafic vers leurs sites.

Cependant, en utilisant des contenus extraits pour entraîner des modèles d'IA, les entreprises d'IA et de moteurs de recherche modifient la manière dont les utilisateurs interagissent avec le contenu sur le web. Ces modèles d'IA ont commencé à générer du contenu dérivé qui apparaît désormais sous forme de vue d'ensemble au-dessus des résultats des moteurs de recherche et comme réponses aux requêtes dans les outils d'IA générative (GenAI). Les utilisateurs font de plus en plus confiance à ce contenu dérivé, et très souvent ils ne consultent pas le site web source d'origine. Cela est devenu problématique pour les marques et les créateurs de contenu, notamment les éditeurs de médias, car une diminution du trafic sur leur site web peut nuire à leur capacité à promouvoir les abonnements et à générer des revenus publicitaires.

Parallèlement, cette confiance accrue envers les contenus dérivés soulève des problèmes de provenance des données, de propriété intellectuelle et d'utilisation abusive des contenus : en résumé, les créateurs de contenu n'ont plus de contrôle sur leur contenu.

Les bots IA présentent également des risques significatifs pour la sécurité et la conformité de toutes les organisations, dans tous les secteurs. Ces bots peuvent voler de la propriété intellectuelle, compromettre les applications web et détecter des vulnérabilités susceptibles d'entraîner des incidents de sécurité ou des violations de données.

Nous devons nous atteler à la résolution des difficultés en matière de sécurité posées par les bots IA, et nous devons le faire maintenant, car la menace continuera de croître. En tant que leaders en cybersécurité, nous avons besoin de mécanismes pour protéger nos organisations contre tous les bots nuisibles, sans restreindre les opportunités de cette nouvelle ère d'Internet.

Faire face à l'augmentation du trafic lié aux bots IA

Tandis que je passais mon diplôme de troisième cycle en science des données et en apprentissage automatique, il m'est apparu évident que les entreprises d'IA se précipiteraient pour collecter de grandes quantités de données de haute qualité. Plus vous collectez de données de haute qualité, meilleur sera votre modèle.

Mais l'augmentation rapide de l'activité des robots d'indexation d'IA au cours de l'année passée a été stupéfiante : les données de Cloudflare Radar montrent qu'entre juillet 2024 et juillet 2025, les requêtes brutes de GPTBot (qui collecte des données d'apprentissage pour ChatGPT) ont augmenté de 147 %. Au cours de la même période, les requêtes brutes provenant de Meta-ExternalAgent (qui contribue à l'apprentissage des modèles d'IA de Meta) ont augmenté de 843 %.

Par ailleurs, les sites web continuent de constater l'activité d'autres types de bots IA également. Les bots malveillants, par exemple, n'extraient pas de contenu ; ils recherchent les vulnérabilités des applications web, s'introduisent dans des comptes d'utilisateurs, effectuent des achats frauduleux, soumettent des spams via des formulaires en ligne, ralentissent les performances des sites, et bien plus encore.

Un seul bot malveillant pourrait produire des conséquences désastreuses pour une organisation. Imaginez que vous placiez temporairement les résultats financiers trimestriels de votre entreprise cotée en bourse sur un site de préproduction. Vous prévoyez de publier ces résultats uniquement après la fermeture de la bourse pour la journée. Mais en admettant que les bots puissent accéder à ces informations tôt et les transmettre dans le cadre d'une requête de recherche pour les utilisateurs. Ces individus pourraient commencer à négocier vos actions sur la base de ces informations non publiques importantes, vous exposant à des amendes réglementaires et à des poursuites judiciaires.

Comment relever les nouveaux défis liés aux bots basés sur l’IA ?

Les leaders en cybersécurité doivent se concentrer sur l'arrêt de tous les bots pouvant nuire à leur organisation. Toutefois, cette démarche n'est pas des plus simples.

Les outils d'IA facilitent la tâche des cybercriminels, ainsi que de certaines entreprises d'IA, pour créer des bots qui contournent les défenses traditionnelles. Par exemple, les cybercriminels peuvent utiliser l'IA pour développer des bots capables d'échapper à des contrôles tels que le blocage de la localisation ou de l'adresse IP en modifiant la signature ou le vecteur d'attaque du bot. Les entreprises d'IA, et les cybercriminels, peuvent également créer des bots IA qui imitent le comportement humain pour contourner les défis CAPTCHA.

L'IA ne se contente pas d'aider les cybercriminels à créer des bots « plus intelligents ». Elle leur permet également de lancer des invasions de bots à une échelle et à une vitesse sans précédent, et ainsi de submerger les défenses et contrôles existants.

Élaborer une stratégie de sécurité à plusieurs niveaux pour les bots IA

Pour arrêter les bots IA malveillants et contrôler l'exploration et l'extraction de contenu, les organisations ont besoin d'une stratégie de sécurité multicouche. Cette stratégie combine des contrôles statiques avec des capacités dynamiques plus prédictives et une gouvernance granulaire.

Couche 1 : contrôles fondamentaux/statiques

Les contrôles statiques constituent la base d'une stratégie multicouche. Elles bloquent les attaques de bots à grande échelle dès qu'elles se produisent et empêchent les bots alimentés par l'IA d'échapper aux défenses traditionnelles. Les contrôles statiques comprennent :

Tests sans CAPTCHA permettant de bloquer les bots sans ralentir les utilisateurs réels.
Authentification multifacteur (MFA), qui peut empêcher les bots automatisés de dépasser les noms d'utilisateur et les mots de passe.
Contrôle du volume des requêtes, qui peut arrêter les tentatives de connexion par force brute basées sur des bots, les Attaques DDoS et l'extraction de contenu.
Rediriger les bots vers un autre contenu pour ralentir, brouiller et gaspiller délibérément les ressources des bots indésirables.

Couche 2 : contrôles prédictifs/dynamiques

En vous appuyant sur cette base, vous pouvez mettre en œuvre des contrôles plus prédictifs et dynamiques qui anticipent et détectent les menaces de bots avant qu'elles ne causent des dommages. Les capacités prédictives comprennent des capacités telles que :

Surveillance des flux d'informations sur les menaces en temps réel pour identifier les menaces émergentes avant qu'elles n'atteignent votre organisation.
Consignation du trafic détaillé du site pour comprendre comment les utilisateurs authentiques et les bots se comportent généralement sur votre site.
Détection des anomalies comportementales, en utilisant l'apprentissage automatique pour établir un comportement de référence des utilisateurs et identifier les écarts.

Couche 3 : gouvernance granulaire et autorisations pour les robots d’indexation IA

Vous pourriez bloquer par défaut tous les bots. Cependant, vous pourriez souhaiter que certains bots IA soient autorisés à explorer votre site de sorte que votre contenu apparaisse dans les synthèses de l'IA ou les réponses générées par l'IA. Pour contrôler quels bots IA peuvent interagir avec votre site, il est nécessaire d'établir une couche de gouvernance entre les bots et votre contenu. Cette couche exige plusieurs capacités interdépendantes :

Audit de l'IA : les fonctionnalités d'audit offrent une visibilité claire sur les bots qui accèdent à votre site web et sur la manière dont ils interagissent avec celui-ci.
Vérification cryptographique : afin de garantir cette visibilité, les bots peuvent s'identifier en signant de manière cryptographique les requêtes provenant de leur service. Ils peuvent indiquer leur objectif et vous donner la possibilité de permettre ou non l'exploration.
Contrôle granulaire sur le contenu: le contrôle granulaire vous permet de gérer les bots qui peuvent visiter votre site et les pages auxquelles ils peuvent accéder. Un éditeur peut bloquer les extracteurs pour les pages sur lesquelles le contenu original est monétisé par le biais de publicités. Cependant, une entreprise technologique pourrait permettre aux bots de collecter la documentation des développeurs.
Paiement à l'exploration : une possibilité de paiement par exploration vous donnerait la possibilité de facturer les entreprises qui extraient votre contenu. Si une entreprise utilise votre contenu pour entraîner son modèle, ne devrait-elle pas vous rémunérer pour cela ?

Créer un Internet basé sur l'autorisation

Cloudflare propose les services cloud nécessaires pour construire une stratégie multicouche de bots IA. Avec Cloudflare, vous pouvez mettre en œuvre des contrôles statiques et dynamiques, ainsi que des contrôles granulaires pour une gestion précise des bots.

Les capacités d'audit de l'IA permettent aux équipes de surveiller et de contrôler la manière dont les bots IA interagissent avec le contenu des sites web. Vous pouvez voir quels services d'IA accèdent à votre site ; définir des politiques pour autoriser ou bloquer les robots d'indexation et les extracteurs ; et suivre quels bots respectent vos directives. La fonctionnalité de paiement à l’exploration au sein de l’audit IA vous permettra également de monétiser l’accès des bots IA, en obligeant les propriétaires de bots à vous payer pour explorer et extraire les données de votre site.

Grâce à ces fonctionnalités, Cloudflare, en collaboration avec les principaux éditeurs et entreprises d'IA du monde, développe un modèle basé sur les autorisations pour Internet. Au-delà du simple blocage des bots malveillants, nous créons un modèle qui bénéficiera à de nombreuses organisations, y compris aux créateurs de contenu ainsi qu'aux moteurs de recherche légitimes et aux entreprises d'IA prêtes à payer pour des contenus avec lesquels entraîner leurs modèles d'IA.

Il ne fait aucun doute que l'IA est en train de transformer le fonctionnement d'Internet. Avec Cloudflare, vous pouvez protéger votre organisation des risques que l'IA introduit tout en profitant des opportunités de la nouvelle ère d'Internet.

Cet article fait partie de notre série consacrée aux nouvelles tendances et évolutions susceptibles d'affecter les décideurs en matière de technologies d'aujourd'hui.

Approfondir le sujet

Découvrez comment encourager l'utilisation de l'IA au sein de l'entreprise, tout en préservant la sécurité, dans Garantir la sûreté des pratiques concernant l'IA : Guide de la création d'une stratégie évolutive en matière d'IA à l'intention des RSSI.

Auteur

Grant Bourzikas – @grantbourzikas
Chief Security Officer, Cloudflare

Conclusions essentielles

Cet article vous permettra de mieux comprendre les aspects suivants :

Pourquoi l'activité des robots d'indexation IA et des autres bots est en augmentation
Les risques de sécurité que présente un afflux de robots d'indexation basés sur l'IA
Comment prendre le contrôle des bots à l'aide d'une stratégie de sécurité multicouche

Ressources associées

Recevez un récapitulatif mensuel des tendances Internet les plus populaires !

S'abonner à theNET