CLOUDFLARE 打造的 theNet

重新取得對 AI 爬蟲的控制權

如何保護內容並強化網路安全

我們正邁入一個由 AI 驅動的網際網路新時代。這個新時代的序幕,是由包括網站爬蟲與抓取工具在內的 AI 機器人拉開的,它們正不斷蒐集越來越多的資料,用以訓練 AI 模型。網站爬取與資料擷取並非新現象:搜尋引擎公司長久以來一直會爬取網站、擷取內容,以建立搜尋結果。而這個過程過去對網站擁有者而言一向是有利的,因為搜尋結果能為他們的網站帶來流量。

然而,當 AI 和搜尋引擎公司利用爬取而來的內容來訓練 AI 模型時,他們正在改變使用者與網頁內容互動的方式。這些 AI 模型開始產生衍生內容,這些內容如今會出現在搜尋引擎結果頁面上方的概要中,也會作為生成式 AI (GenAI) 工具對使用者查詢的回應內容。使用者愈發信任這些衍生內容,且通常不再造訪原始的來源網站。這對品牌與內容創作者(尤其是媒體發佈者)造成了困擾,因為網站流量的減少,會直接影響他們推廣訂閱服務與獲取廣告收入的能力。

與此同時,使用者對這些衍生內容愈發信任,也引發了有關資料起源、智慧財產權,以及內容遭不當使用等問題。簡而言之,內容創作者不再能掌控自己的內容。

AI 機器人也為所有組織和各個產業帶來了重大的安全和合規風險。這些機器人可能竊取智慧財產、入侵 Web 應用程式,並找到導致安全事件或資料外洩的漏洞。

我們必須正面迎擊 AI 機器人所帶來的安全挑戰,而且必須從現在開始——因為這項威脅只會持續擴大。身為安全領導者,我們需要建立有效的機制,在不阻礙這個新網際網路時代所帶來的各種機遇的前提下,保護我們的組織免於任何有害機器人的侵害。


應對不斷增加的 AI 機器人流量

當我攻讀資料科學和機器學習的研究生學位時,我逐漸明白,AI 公司會競相收集大量的高品質資料。您收集的高品質資料越多,您的模型就會越好。

然而,僅在過去一年裡,AI 爬蟲活動的急劇增長已令人震驚:來自 Cloudflare Radar 的資料顯示,從 2024 年 7 月至 2025 年 7 月,用於為 ChatGPT 收集訓練資料的 GPTBot 所發出的原始請求量增加了 147%。在同一時期內,用於協助訓練 Meta AI 模型的 Meta-ExternalAgent 所發出的原始請求量更是暴增了 843%。

與此同時,網站上也持續出現其他類型的 AI 機器人活動。舉例來說,惡意機器人並非僅僅在爬取網站內容——它們還會掃描 Web 應用程式的漏洞、入侵使用者帳戶、進行詐騙購買、透過線上表單提交垃圾資訊、拖慢網站效能,以及進行更多其他危害行為。

單一惡意機器人就可能對企業造成災難性後果。試想,您將一家上市公司季度財報的暫時版本上傳至暫存網站,並規劃在股市收盤後才正式公佈這些資料。但假設惡意機器人提前取得了這些資訊,並透過搜尋查詢讓使用者也能存取。這些使用者可能會依據這些尚未公開的重大內幕資訊進行股票交易,導致貴公司面臨監管罰款與法律訴訟的風險。


如何應對新型 AI 驅動的機器人挑戰?

網路安全領導者必須專注於攔阻所有可能危害其組織的機器人,但要做到這一點並不簡單。

AI 工具正讓網路犯罪分子(甚至部分 AI 公司)更容易開發出能夠規避傳統防禦機制的機器人。舉例來說,網路罪犯可以利用 AI 開發出能夠改變機器人特徵或攻擊媒介的機器人,藉此繞過地理位置或 IP 位址封鎖之類控管措施。此外,AI 公司與網路犯罪分子也能打造能夠模擬人類行為的 AI 機器人,從而破解 CAPTCHA 驗證挑戰。

AI 不僅協助網路犯罪分子打造「更聰明」的機器人,還讓他們能以前所未有的規模與速度發動機器人大規模入侵,壓垮現有的防禦與管控機制。


針對 AI 機器人建立多層次的安全策略

為了阻止惡意 AI 機器人,並有效控管網站爬取與內容剽竊行為,企業需要採行一套多層次安全策略。此策略結合了靜態防護控制、更具預測性的動態防禦能力,以及精細化的治理機制。

第 1 層:基礎/靜態控制

靜態防護控制為多層次資安策略奠定了基礎,能夠即時封鎖大規模的機器人攻擊,並防止 AI 驅動的機器人繞過傳統防禦機制。靜態防護控制包括:

層級 2:預測/動態控制

在此基礎上,您可以進一步部署更具預測性與動態性的防禦控制機制,以便在機器人威脅造成實際損害之前,就能預先識別並偵測它們。這類預測性能力包括以下功能:

  • 監控即時威脅情報摘要,以在新興威脅到達組織之前識別它們。

  • 詳細記錄網站流量,以瞭解真實使用者和機器人在您網站上的通常行為。

  • 偵測行為異常,使用機器學習建立使用者行為基準線並識別偏差。

第 3 層:針對 AI 爬蟲的精細化治理與權限控管

您可以預設封鎖所有機器人。但實際上,您可能希望允許某些 AI 機器人來抓取您的網站,好讓您的內容能出現在 AI 摘要資訊或 GenAI 的回應中。若要精確控制哪些 AI 機器人可以與您的網站互動,您就必須在機器人與您的內容之間建立一層治理機制。而這層治理機制需要具備多項相互關聯的能力:

  • AI 稽核透過稽核功能,可以清楚瞭解哪些機器人正在存取您的網站,以及它們如何與網站互動。

  • 密碼學驗證為了提供這種可視性,機器人可以透過對其服務發出的請求進行密碼學簽章來標識自己。它們可以表明自身的用途,並讓您有權選擇是否允許其進行網站爬取。

  • 對內容的精細化控制透過精細化控制,您可以管理哪些機器人能夠造訪您的網站,以及它們可以存取哪些頁面。例如,一個發佈者可能會阻止抓取工具存取那些透過廣告實現原創內容變現的頁面;而一家科技公司則可能允許機器人抓取其開發人員文件。

  • 依爬行次數付費依爬行次數付費功能可讓您選擇向那些抓取您網站內容的公司收取費用。如果某家公司正在利用您的內容來訓練其 AI 模型,難道他們不應該為此付費嗎?


建立以權限為基礎的網際網路

Cloudflare 提供制定多層次 AI 機器人策略所需的雲端服務。使用 Cloudflare,您可以實施靜態和動態控制,以及細項控制,以精確進行機器人管理。

AI Audit 功能可協助團隊監控並控管 AI 機器人與網站內容之間的互動行為。您可以查看哪些 AI 服務正在存取您的網站,設定允許或封鎖爬蟲與抓取工具的政策,並追蹤哪些機器人有遵循您的規則。此外,AI Audit 中的依爬行次數付費功能,還能讓您將 AI 機器人的存取權變現,要求機器人擁有者為爬取與擷取您網站內容的行為支付費用。

借助這些功能,Cloudflare 正與全球領先的發佈者和 AI 公司攜手,共同打造一個以權限為基礎的網際網路模式。我們所做的不僅僅是封鎖有害的機器人,更是在建立一個能讓多方組織共同受益的機制——包括內容創作者,以及那些願意為能夠用於訓練 AI 模型的內容支付合理費用的合法搜尋引擎與 AI 公司。

毫無疑問,AI 正在改變網際網路的運作方式。使用 Cloudflare,您可以保護您的組織免受 AI 帶來的風險,同時抓住新網際網路時代的機遇。

Cloudflare 就影響當今技術決策者的最新趨勢和主題發表了一系列文章,本文為其中之一。


深入探討這個主題。

閱讀《確保安全 AI 做法:CISO 可擴展的 AI 策略制定指南》,瞭解如何在企業中支援 AI 的使用,同時維持安全性。

作者

——Cloudflare 資安長 Grant Bourzikas (@rantbourzikas)



重點

閱讀本文後,您將能夠瞭解:

  • 為什麼 AI 爬蟲和其他機器人的活動正在增加

  • 大量 AI 爬蟲湧入所帶來的安全風險

  • 如何使用多層次安全策略來掌控機器人


相關資源

收到最熱門網際網路深入解析的每月回顧!