theNet by Cloudflare

重新掌控 AI 爬虫

如何保护内容并增强网络安全

我们正在进入一个由 AI 驱动的互联网新时代。这个新时代始于 AI 机器人(包括网站爬虫和抓取程序),它们正在收集越来越多的数据来训练 AI 模型。爬取和抓取内容并非新鲜事务:搜索引擎公司一直在爬取网站和抓取内容以填充搜索结果。这一过程一直以来都让网站所有者受益,因为搜索结果会将流量引导回他们的网站。

但是,通过使用抓取的内容来训练 AI 模型,AI 和搜索引擎公司正在改变用户与网络内容交互的方式。这些 AI 模型开始生成衍生内容,现在显示为搜索引擎结果上方的概述,并作为对生成式 AI(GenAI)工具内查询的响应。用户越来越信任这些衍生内容,他们往往不访问原始来源网站。这对品牌和内容创作者,尤其是媒体出版商,造成了问题,因为他们网站的流量减少会影响他们推广订阅和广告收入的能力。

与此同时,对衍生内容信任度的提升引发了数据来源、知识产权和内容滥用方面的问题:简而言之,内容创作者不再拥有对其内容的控制权。

AI 机器人也为所有行业的每个组织带来了重大安全和合规风险。这些机器人可以窃取知识产权、破坏 Web 应用,并寻找导致安全事件或数据泄露的漏洞。

我们必须直面 AI 机器人带来的安全挑战,并且必须立即采取行动,因为这种威胁将继续增长。作为网络安全领导者,我们需要相应的机制来保护我们的组织免受任一切有害机器人的威胁,同时不限制这个互联网新时代带来的机遇。


面对不断增加的 AI 机器人流量

当我在攻读数据科学和机器学习的研究生学位时,很明显,人工智能公司将竞相收集大量高质量的数据。您收集的高质量数据越多,您的模型就会越好。

但仅在过去一年中,AI 爬虫活动的快速增长就已经令人震惊:Cloudflare Radar 的数据显示,从 2024 年 7 月至 2025 年 7 月,来自 GPTBot(收集 ChatGPT 训练数据)的原始请求增加了 147%。在同一时期内,来自 Meta-ExternalAgent(用于帮助训练 Meta 的 AI 模型)的原始请求增加了 843%。

与此同时,网站也继续看到其他类型 AI 机器人的活动。例如,恶意机器人并不抓取内容,而是扫描 Web 应用漏洞、入侵用户帐户、进行欺诈性购买、通过在线表单提交垃圾邮件、降低网站性能等。

一个恶意机器人就可能会给组织带来灾难性的后果。设想一下,您将公司季度财务业绩临时放在一个预发布网站上。您计划仅在当天股市收盘后才发布这些结果。但是,假设机器人能够提前访问这些信息,并在用户的搜索查询中分享。这些人可能会根据这一重大非公开信息开始交易您的股票,导致您面临监管罚款和诉讼。


如何应对由 AI 驱动的机器人带来的新挑战?

网络安全负责人必须专注于阻止所有可能损害其组织的机器人程序。但这并非易事。

AI 工具使网络犯罪分子和一些 AI 公司更容易创建能够绕过传统防御的机器人。例如,网络犯罪分子可以利用 AI 开发机器人,通过改变机器人的签名或攻击手段,来规避基于位置或 IP 地址阻止之类的控制措施。AI 公司和网络犯罪分子还可以创建模仿人类行为的 AI 机器人,以破解 CAPTCHA 验证。

AI 不仅帮助网络犯罪分子制造“更聪明”的机器人。这也使他们能够以空前的规模和速度发起机器人入侵,压倒现有的防御和控制措施。


构建针对 AI 机器人的安全策略

为了阻止恶意 AI 机器人,并控制爬取和内容抓取,组织需要一个多层的安全策略。这种策略结合静态控制与更具预测性的动态功能和精细化管控。

第 1 层:基础/静态控制措施

静态控制为多层策略提供基础,阻止大规模机器人攻击的发生,并防止 AI 驱动的机器人绕过传统防御手段。静态控制包括:

第 2 层:预测/动态控制

在此基础上,您可以实施更具预测性和动态的控制措施,能够在机器人威胁造成任何损害前对其进行预判和检测。预测性功能包括以下能力:

  • 监控实时威胁情报源,在新出现的威胁到达您的组织前予以识别。

  • 记录详细站点流量,以了解真实用户和机器人在网站上的典型行为模式。

  • 检测行为异常,使用机器学习建立用户行为基线并识别偏差。

第 3 层:AI 爬虫的细粒度治理和权限

您可以默认阻止所有机器人。但实际上,您可能希望允许某些 AI 机器人抓取您的网站,以便您的内容出现在 AI 概览或生成式 AI 的响应中。要控制哪些 AI 机器人可以与您的站点交互,您需要在机器人和内容之间设置一个管控层。该层需要多种相互关联的能力:

  • AI 审计通过审计功能,可以清晰了解哪些机器人正在访问您的网站以及它们如何与网站交互。

  • 加密验证为了帮助提供这种可见性,机器人可以通过对来自其服务的请求进行加密签名来标识自己的身份。他们可以声明其目的,并让您选择是否允许爬取。

  • 对内容的精细化控制精细化控制使您能够管理哪些机器人可以访问您的站点以及它们可以访问哪些页面。内容发布者可能会在通过广告变现的原始内容页面上阻止爬虫访问。然而,科技公司可能会允许机器人抓取开发人员文档的内容。

  • 按爬网付费如果按爬网付费功能,你可以选择向抓取您内容的公司收费。如果一家公司使用您的内容来训练他们的模型,他们是否不应该为此向您付费?


创建一个基于权限的互联网

Cloudflare 提供构建多层 AI 机器人策略所需的云服务。使用 Cloudflare,您可以部署静态、动态和精细化控制,以实现精准的机器人管理。

AI Audit 功能使团队能够监控和控制 AI 机器人与网站内容的交互方式。您可以查看哪些 AI 服务正在访问您的站点;设置允许或阻止爬虫和抓取工具的策略;并跟踪哪些机器人遵循您的指令。AI Audit 中的按抓取付费功能也将允许您通过 AI 机器人的访问获利,要求机器人所有者为爬取和抓取您的网站内容付费。

借助这些能力,Cloudflare——与全球领先的出版商和 AI 公司一起——正在构建一个基于权限的互联网模型。我们并非仅仅阻止有害的机器人,还会创建一个使多个组织受益的模型,包括内容创作者以及合法的搜索引擎,以及愿意为可用于训练其 AI 模型的内容支付费用的 AI 公司。

毫无疑问,AI 正在改变互联网的运作方式。使用 Cloudflare,您可以保护自己的组织免受 AI 带来的风险,同时充分利用互联网新时代的机遇。

Cloudflare 就影响当今技术决策者的最新趋势和主题发布了系列文章,本文为其一。


深入探讨这个话题

阅读《确保安全的 AI 实践:CISO 创建可扩展 AI 策略的指南》,了解如何在企业内部支持使用 AI 并保障安全。

作者

Grant Bourzikas — @grantbourzikas
Cloudflare 首席安全官



关键要点

阅读本文后,您将能够了解:

  • 为什么来自 AI 爬虫和其他机器人的活动在增加

  • AI 爬虫大量涌现带来的安全风险

  • 如何使用多层安全策略管控机器人


相关资源

接收有关最流行互联网见解的每月总结。