私たちは、AIによって変化するインターネットの新しい時代に入ろうとしています。この新しい時代は、AIボット(Webサイトのクローラーやスクレイパーを含む)がAIモデルを訓練するためにますます多くのデータを収集することから始まりました。クローリングやスクレイピング自体は新しい技術ではありません。検索エンジン会社はこれまでもWebサイトをクローリングし、コンテンツを収集して検索結果を生成してきました。検索結果を利用して自分のサイトを訪れるユーザーが居 るため、この過程はWebサイト所有者にとってもメリットがありました。
しかし、AIや検索エンジン会社が収集したコンテンツをAIモデルの学習に使うことで、ユーザーがWeb上のコンテンツと関わる方法が変わってきています。現在ではこれらのAIモデルが検索エンジンで上位に表示される結果をまとめた派生コンテンツを生成し、生成AI(GenAI)ツール内での質問の回答として表示するようになっています。ユーザーはこの派生コンテンツを信頼する傾向が強く、元のWebサイトを訪れることが少なくなっています。Webサイトへのトラフィックが減少すると、サブスクリプションや広告収益の機会に影響を与える可能性があるため、この変化は、ブランドやコンテンツクリエイター、特にメディア出版社にとって問題となっています。
同時に、この派生コンテンツへの信頼の高まりは、データの出所、知的財産、コンテンツの不正使用の問題を引き起こします。つまり、コンテンツ制作者はもはや自分のコンテンツを管理できなくなるのです。
また、AIボットは、知的財産を盗んだり、Webアプリケーションを侵害したり、セキュリティインシデントやデータ漏洩につながる脆弱性を発見する能力を持つため、すべての組織やあらゆる業界に対して、重大なセキュリティおよびコンプライアンスのリスクをもたらす脅威となり得ます。
私たちはAIボットがもたらすセキュリティ課題に 正面から取り組む必要があり、今すぐ行動しなければなりません。なぜなら、この脅威は今後も増大し続けるからです。サイバーセキュリティのリーダーとして、私たちはこの新しいインターネット時代の可能性を妨げることなく、あらゆる有害なボットから組織を守る仕組みを持つ必要があります。
私が大学院課程でデータサイエンスと機械学習を学んでいた時、AI企業は大量の高品質データを収集する競争をすることが予想されていました。より多くの高品質データを集めるほど、モデルの精度は高まります。
しかし、この1年間だけでAIクローラーの活動の急増は驚くべきものであり、Cloudflare Radarのデータによると、2024年7月から2025年7月にかけて、GPTBot(ChatGPTのトレーニングデータを収集するボット)からの未加工リクエストが147%増加したことが示されています。同期間で、Meta-ExternalAgent(MetaのAIモデルのトレーニングを支援する)からの未加工のリクエストも843%増加しました。
同時に、Webサイトでは他の種類のAIボットの活動も続いています。たとえば、悪意のあるボットはコンテンツをスクレイピングするのではなく、Webアプリケーションの脆弱性をスキャンしたり、ユーザーアカウントに侵入したり、不正購入をしたり、オンラインフォームからスパムを送信したり、サイトのパフォーマンスを低下させる行動をとっています。
たった1つの悪意のあるボットが組織に壊滅的な影響を与える可能性があります。例えば、上場企業の四半期決算の結果を一時的にステージングサイトに掲載し、その日の株式市場が終了した後に公開する予定だとします。しかし、ボットがその情報に早期にアクセスして検索クエリに表示してしまった場合、個人投資家がその重要な未公開情報をもとに株式を取引し始め、規制上の罰金や訴訟にさらされる可能性があります。
サイバーセキュリティの責任者は、組織に害を及ぼす可能性のあるすべてのボットを阻止することに注力する必要があります。しかし、これは簡単なことではありません。
AIツールの進化により、サイバー犯罪者や一部のAI企業にとって、従来の防御をすり抜けるボットを作成することはそれほど難しいことではなくなっています。例えば、サイバー犯罪者はAIを利用して、ボットの署名や攻撃ベクトルを柔軟に変更させることで、位置情報やIPアドレスのブロックといった制御を回避するボットを開発することができます。AI企業やサイバー犯罪者は、CAPTCHAチャレンジを突破するために人間の行動を模倣したAIボットを作成することもできます。
AIにより、サイバー犯罪者はより「高度な」ボットを作るだけでなく、かつてない規模と速度で攻撃を仕掛け、既存防御を突破できるようになっています。
悪意のあるAIボットを阻止し、クローリングやコンテンツスクレイピングを制御するには、組織には多層的なセキュリティ戦略が必要です。この戦略では、静的な制御と、より予測的で動的な機能、きめ細かなガバナンスを組み合わせます。
静的な制御は、多層的な戦略の基盤を提供し、大規模なボット攻撃が発生した際にそれをブロックし、AIを活用したボットが従来の防御を回避するのを防ぎます。静的制御には以下が含まれます:
利用者の手を煩わせることなくボットをブロックするCAPTCHA不要の認証
ユーザー名とパスワードだけではボットが先に進めないようにする多要素認証(MFA)
ボットベースのブルートフォース攻撃、分散型サービス妨害(DDoS)攻撃、コンテンツスクレイピングを防ぐレート制限。
ボットを代替コンテンツにリダイレクトして、意図的に低速化や混乱を引き起こし、望ましくないボットのリソースを浪費します。
基盤となる静的制御の上に、ボットの脅威を予測し、被害を及ぼす前に検出する、より予測的で動的な制御を実装することができます。予測的機能には、次のような機能が含まれています:
リアルタイムの脅威インテリジェンスフィードを監視することで、新たな脅威が組織に到達する前に特定。
サイトのトラフィックを詳細にログに記録し、実際のユーザーとボットのサイト上での行動パターンを把握。
機械学習を使用して実際のユーザーの行動基準を確立し、逸脱を特定する挙動の異常の検出。
すべてのボットをデフォルトでブロックすることもできますが、特定のAIボットにサイトのスクレイピングを許可してAIの概要や生成AIの応答にコンテンツを表示させたい場合もあります。AIボットが自社サイトと対話するのを制御するには、ボットとコンテンツの間にガバナンスレイヤーを設け、複数の関連機能で制御する必要があります:
AI監査:Webサイトにアクセスしているボット、Webサイトに対するアクションを明確に可視化します。
暗号署名による認証:その可視性を提供するために、ボットはサービスからのリクエストに暗号署名を付けて自身を識別し、目的を明示することができます。これにより、スクレイピングを許可するかどうか選択できます。
コンテンツのきめ細かな制御:どのボットがサイトを訪問できて、どのページがアクセスできるかを管理することができます。たとえば、出版社は広告収益のあるページへのスクレイピングをブロックする一方、技術系企業は開発者向けドキュメントのスクレイピングを許可することがあります。
クロールごとに課金:自社のコンテンツをスクレイピングする企業に課金するオプションが提供されます。対象の企業が自社のコンテンツを自社のモデルのトレーニングに使用している場合、その対価を支払うべきと言う考えです。
Cloudflareは、多層的なAIボット戦略の構築に必要なクラウドベー スのサービスを提供しています。Cloudflareを使用すると、静的制御、動的制御、そしてボット管理を正確に行うためのきめ細かな制御を実装できます。
AI監査機能により、Webサイトのコンテンツに対するAIボットの活動内容を監視し、制御することができます。どのAIサービスが自分のサイトにアクセスしているかを確認し、クローラーやスクレイパーを許可またはブロックするポリシーを設定し、ディレクティブに従うボットを追跡できます。AI監査の「クロールごとに課金」機能を使用して、ボットの所有者にサイトのクロールやスクレイピングに対して支払いを求めることで、AIボットのアクセスを収益化することができます。
こうした機能を通じて、Cloudflareは世界有数の出版社やAI企業とともに、許可ベースのインターネットモデルを構築しています。私たちは、有害なボットを単にブロックするだけでなく、コンテンツ制作者や正規の検索エンジン、AIモデルを訓練するためにコンテンツに対価を支払う意思のあるAI企業を含む、複数の組織に利益をもたらすモデルを作成しています。
AIがインターネットの仕組みを変えつつあることは間違いありません。Cloudflareを活用すれば、インターネット新時代のチャンスを活かす一方で、AIがもたらすリスク から自社を保護することができます。
この記事は、技術関連の意思決定者に影響を及ぼす最新のトレンドとトピックについてお伝えするシリーズの一環です。
セキュリティを維持しながら企業におけるAIの利用をサポートする方法について、詳しくは、「AIの安全な実践を確保する:スケーラブルなAI戦略を立てる方法に関するCISO向けガイド」をご覧ください。
Grant Bourzikas — @grantbourzikas
最高セキュリティ責任者、Cloudflare
この記事では、以下のことがわかるようになります。
AIクローラーやその他のボットの活動量が増加している理由
AIクローラーの流入がもたらすセキュリティリスク
多層的なセキュリティ戦略を用いてボットを制御する方法