#main-nav-header { display:none; }

Die Kontrolle über KI-Crawler wiedererlangen

Wie man Inhalte schützt und die Cybersicherheit stärkt

Wir betreten ein neues Zeitalter des Internets – geprägt durch KI. Diese neue Ära hat mit KI-Bots begonnen – einschließlich Website-Crawlern und -Scrapern –, die immer mehr Daten sammeln, um KI-Modelle zu trainieren. Crawling und Scraping sind nicht neu: Suchmaschinenunternehmen haben schon immer Websites gecrawlt und Inhalte gescrapt, um Suchergebnisse zu erstellen. Dieser Prozess hat den Website-Betreibern schon immer Vorteile gebracht, da die Suchergebnisse den Traffic zurück zu ihren Websites geleitet haben.

Aber durch die Verwendung von gescrapten Inhalten zum Trainieren von KI-Modellen verändern KI- und Suchmaschinenunternehmen die Art und Weise, wie Nutzer mit Inhalten im Internet interagieren. Diese KI-Modelle begannen, abgeleitete Inhalte zu generieren, die nun als Übersicht über den Suchmaschinenergebnissen und als Antworten auf Abfragen in Tools für generative KI (GenAI) erscheinen. Benutzer vertrauen diesen abgeleiteten Inhalten zunehmend, und sie besuchen die ursprüngliche Quellwebsite oft nicht. Dies ist für Marken und Content-Creator, insbesondere für Medienverlage, problematisch geworden, da weniger Traffic auf ihrer Website ihre Fähigkeit beeinträchtigen kann, Abonnements zu bewerben und Werbeeinnahmen zu generieren.

Gleichzeitig wirft dieses erhöhte Vertrauen in abgeleitete Inhalte Probleme mit der Datenherkunft, dem geistigen Eigentum und dem Missbrauch von Inhalten auf: Kurz gesagt, Content-Creator haben keine Kontrolle mehr über ihre Inhalte.

KI-Bots stellen ebenfalls erhebliche Sicherheits- und Compliance-Risiken für alle Organisationen in allen Branchen dar. Diese Bots können geistiges Eigentum stehlen, Webanwendungen kompromittieren und Schwachstellen aufdecken, die zu Sicherheitsvorfällen oder Datenschutzverletzungen führen.

Wir müssen die Sicherheitsbedrohungen durch KI-Bots direkt angehen, und wir müssen es jetzt tun, denn die Bedrohung wird weiter wachsen. Als Führungskräfte im Bereich der. Cybersicherheit benötigen wir Mechanismen, um unsere Organisationen vor jeglichen schädlichen Bots zu schützen, ohne die Chancen dieser neuen Internet-Ära einzuschränken.

Effektiver Umgang mit steigendem KI-Bot-Traffic

Als ich einen Abschluss in Data Science und Machine Learning verfolgte, wurde deutlich, dass KI-Unternehmen darum wetteifern würden, große Mengen an hochwertigen Daten zu sammeln. Je mehr hochwertige Daten Sie sammeln, desto besser wird Ihr Modell sein.

Aber der rasante Anstieg der Aktivität von KI-Crawlern allein im vergangenen Jahr ist erstaunlich: Daten von Cloudflare Radar zeigen, dass von Juli 2024 bis Juli 2025 die Rohanfragen von GPTBot (das Trainingsdaten für ChatGPT sammelt) um 147 % gestiegen sind. Im gleichen Zeitraum stiegen die Rohanfragen von Meta-ExternalAgent (der beim Training der KI-Modelle von Meta hilft) um 843 %.

Unterdessen verzeichnen Websites weiterhin Aktivitäten von anderen Arten von KI-Bots. Bösartige Bots, zum Beispiel, scrapen keine Inhalte – sie suchen nach Schwachstellen in Webanwendungen, dringen in Benutzerkonten ein, tätigen betrügerische Käufe, senden Spam über Online-Formulare, verlangsamen die Website-Performance und mehr.

Ein einzelner bösartiger Bot könnte katastrophale Folgen für eine Organisation haben. Stellen Sie sich vor, dass Sie die Quartalsergebnisse Ihres börsennotierten Unternehmens vorübergehend auf einer Staging-Website platzieren. Sie planen, diese Ergebnisse erst nach Börsenschluss für den Tag zu veröffentlichen. Angenommen, Bots können frühzeitig auf diese Informationen zugreifen und sie in einer Suchanfrage für Benutzer weitergeben. Diese Personen könnten auf der Grundlage dieser wesentlichen nicht-öffentlichen Informationen mit dem Handel Ihrer Aktien beginnen und Sie dem Risiko von regulatorischen Geldbußen und Klagen aussetzen.

Wie können Sie neue Herausforderungen durch KI-gestützte Bots bewältigen?

Cybersicherheitsverantwortliche müssen sich darauf konzentrieren, alle Bots zu stoppen, die ihrer Organisation schaden könnten. Aber das ist nicht so einfach.

KI-Tools erleichtern es Cyberkriminellen – und einigen KI-Unternehmen –, Bots zu entwickeln, die traditionelle Abwehrmechanismen umgehen. Zum Beispiel können Cyberkriminelle KI verwenden, um Bots zu entwickeln, die Kontrollen wie Standort- oder IP-Adressensperrungen umgehen, indem sie die Signatur oder den Angriffsvektor des Bots ändern. KI-Unternehmen – und Cyberkriminelle – können auch KI-Bots entwickeln, die menschliches Verhalten imitieren, um CAPTCHA-Herausforderungen zu überwinden.

KI hilft Cyberkriminellen nicht nur, „intelligentere“ Bots zu erstellen. Es ermöglicht ihnen auch, Bot-Invasionen in einem beispiellosen Ausmaß und mit beispielloser Geschwindigkeit zu starten, wodurch bestehende Abwehrmechanismen und Kontrollen überwältigt werden.

Entwicklung einer mehrschichtigen Sicherheitsstrategie für KI-Bots

Um böswillige KI-Bots zu stoppen und das Crawling und Content Scraping zu kontrollieren, benötigen Organisationen eine mehrschichtige Sicherheitsstrategie. Diese Strategie kombiniert statische Kontrollen mit vorausschauenden, dynamischen Funktionen und präziserer Steuerung.

Schicht 1: Grundlegende / statische Steuerungen

Statische Kontrollmechanismen bilden die Grundlage für die mehrschichtige Strategie, indem sie groß angelegte Bot-Angriffe blockieren, sobald sie auftreten, und verhindern, dass KI-gestützte Bots herkömmliche Abwehrmechanismen umgehen. Statische Steuerelemente umfassen:

CAPTCHA-freie Challenges, die Bots blockieren, ohne die eigentlichen Nutzer zu beeinträchtigen.
Multi-Faktor-Authentifizierung (MFA), die automatisierte Bots daran hindern kann, über Benutzernamen und Passwörter hinauszukommen.
Rate Limiting, das Bot-basierte Brute-Force-Angriffe, Distributed-Denial-of-Service (DDoS)-Angriffe und Content-Scraping stoppen kann.
Umleitung von Bots zu alternativen Inhalten, um die Ressourcen unerwünschter Bots zu verlangsamen, zu verwirren und gezielt zu verschwenden.

Schicht 2: Prädiktive / dynamische Steuerungen

Aufbauend auf dieser Grundlage können Sie vorausschauendere und dynamischere Kontrollen implementieren, die Bot-Bedrohungen antizipieren und erkennen, bevor sie Schaden anrichten. Die prädiktiven Funktionen umfassen unter anderem folgende Funktionen:

Überwachung von Echtzeit-Feeds mit Bedrohungsdaten, um aufkommende Bedrohungen zu identifizieren, bevor sie Ihr Unternehmen erreichen.
Protokollierung des detaillierten Website-Traffics, um zu verstehen, wie sich sowohl authentische Nutzer als auch Bots typischerweise auf Ihrer Website verhalten.
Erkennung von Verhaltensanomalien, unter Einsatz von Machine Learning zur Erstellung eines Basisverhaltens der Nutzer und zur Identifizierung von Abweichungen.

Schicht 3: Präzise Steuerung und Berechtigungen für KI-Crawler

Sie können standardmäßig alle Bots blockieren. Vielleicht möchten Sie bestimmten KI-Bots erlauben, Ihre Website zu scrapen, damit Ihre Inhalte in KI-Übersichten oder GenAI-Antworten erscheinen. Um zu steuern, welche KI-Bots mit Ihrer Website interagieren dürfen, benötigen Sie eine Steuerungsebene zwischen den Bots und Ihren Inhalten. Diese Schicht erfordert mehrere, miteinander verbundene Fähigkeiten:

KI-Überwachung: Die Audit-Funktionen bieten einen klaren Überblick darüber, welche Bots auf Ihre Website zugreifen und wie sie mit dieser interagieren.
Kryptografische Verifizierung: Um diese Transparenz zu gewährleisten, können sich Bots selbst identifizieren, indem sie die Anfragen von ihrem Dienst kryptografisch signieren. Sie können ihren Zweck angeben und Ihnen die Möglichkeit bieten, das Crawling zu erlauben.
Präzise Kontrolle des Inhalts: Mit einer präzisen Steuerung können Sie verwalten, welche Bots Ihre Website besuchen und auf welche Seiten sie zugreifen können. Ein Publisher könnte Scraper von Seiten blockieren, auf denen Originalinhalte durch Werbung monetarisiert werden. Ein Tech-Unternehmen könnte jedoch zulassen, dass Bots die Entwicklerdokumentation scrapen.
Pay-per-Crawl: Eine Zahlung pro Crawl (Pay-per-Crawl) gibt Ihnen die Möglichkeit, den Unternehmen, die Ihre Inhalte scrapen, etwas in Rechnung zu stellen. Wenn ein Unternehmen Ihre Inhalte verwendet, um sein Modell zu trainieren, sollten sie Ihnen dann nicht dafür bezahlen müssen?

Erstellung eines genehmigungsbasierten Internets

Cloudflare bietet die cloudbasierten Dienste, die für den Aufbau einer mehrschichtigen KI-Bot-Strategie benötigt werden. Mit Cloudflare können Sie statische und dynamische Steuerungen sowie präzisere Steuerungen für ein genaues Bot-Management implementieren.

KI-Audit-Funktionen ermöglichen es Teams, zu überwachen und zu steuern, wie KI-Bots mit Website-Inhalten interagieren. Sie können sehen, welche KI-Dienste auf Ihre Website zugreifen; Richtlinien zum Zulassen oder Blockieren von Crawlern und Scrapern festlegen; und nachverfolgen, welche Bots Ihren Anweisungen folgen. Die Pay-per-Crawl-Funktion innerhalb der KI-Überwachung ermöglicht es Ihnen auch, den Zugriff von KI-Bots zu monetarisieren, indem Bot-Besitzer für das Crawlen und Scrapen Ihrer Website zahlen müssen.

Mit diesen Fähigkeiten baut Cloudflare – zusammen mit den weltweit führenden Verlagen und KI-Unternehmen – ein genehmigungsbasiertes Modell für das Internet auf. Mehr als nur schädliche Bots zu blockieren, schaffen wir ein Modell, das mehreren Organisationen zugutekommt – darunter Content-Creator sowie legitime Suchmaschinen- und KI-Unternehmen, die bereit sind, für Inhalte zu zahlen, mit denen ihre KI-Modelle trainiert werden können.

Es besteht kein Zweifel, dass KI die Art und Weise, wie das Internet funktioniert, verändert. Mit Cloudflare können Sie Ihr Unternehmen vor den Risiken schützen, die KI mit sich bringt, und gleichzeitig die Chancen des neuen Internetzeitalters nutzen.

Dieser Beitrag ist Teil einer Serie zu den neuesten Trends und Themen, die für Entscheidungsträger aus der Tech-Branche heute von Bedeutung sind.

Vertiefung des Themas:

Erfahren Sie in Sicherer Umgang mit KI: Ein Leitfaden zur Entwicklung einer skalierbaren KI-Strategie für CISO, wie Sie den Einsatz von KI im Unternehmen unterstützen und gleichzeitig die Sicherheit gewährleisten können.

Autor

Grant Bourzikas — @grantbourzikas
Chief Security Officer, Cloudflare

Wichtigste Eckpunkte

Folgende Informationen werden in diesem Artikel vermittelt:

Warum die Aktivität von KI-Crawlern und anderen Bots zunimmt
Die Sicherheitsrisiken, die ein Zustrom von KI-Crawlern mit sich bringt
Wie Sie Bots mit einer mehrschichtigen Sicherheitsstrategie unter Kontrolle bringen

Erhalten Sie eine monatliche Zusammenfassung der beliebtesten Internet-Insights!

theNET abonnieren