CLOUDFLARE 打造的 theNet


AI 治理從資料治理開始

對於 IT 和安全領域的領導者來說,AI 治理已成為一項高優先事項。隨著我們建立更多 AI 模型並使用更多 AI 解決方案,我們需要實施適當的治理和政策,以最大限度地降低風險並確保我們的業務安全

毫無疑問,AI 治理至關重要。但由於 AI 依賴於資料,因此,AI 治理必須從資料治理著手。我們需要針對資料與 AI 模型提供資料完整性、資料保護與存取控制能力,同時也需制定符合資料隱私與資料在地化義務的合規策略。

改進資料治理不僅會降低與 AI 相關的風險,還將幫助我們最大化 AI 對業務的影響。如果您的組織正在投資 AI,那麼加強資料治理刻不容緩。

____________________________________________________________________________

AI 資料治理面臨的挑戰

為什麼治理用於 AI 的資料如此困難?主要原因在於,大多數企業面臨的資料治理挑戰,與過去多年相比並無太大差異。然而,將資料用於訓練 AI 模型,確實帶來了一些額外的複雜性,例如:

  1. 保持資料完整性
    為了使 AI 模型提供正確的答案,它們需要完整、準確且一致的資料。不過,彙整這些資料並在其整個生命週期中維持其完整性並非易事。

    為了維護資料完整性,組織必須採用多管齊下的方法來防範資料損壞、遺失、外洩和其他風險。這種方法應該嚴格控制對資料和模型的存取,以防止意外或故意的損壞。同時,為了避免模型漂移,用於訓練的資料與模型部署期間使用的資料保持一致也至關重要。

  2. 維護資料隱私權和機密性
    健全資料治理策略的基礎,始於清楚掌握資料所在的位置。當資料離開組織後,要維護資料隱私與機密性將變得更加困難。而如果您將資料提供給大型 AI 模型用於訓練,那麼這些資料幾乎可以肯定會離開您的組織。

    想像一下,假設全球前 20 大資安公司決定分享他們的安全營運中心 (SOC) 資料,用以訓練一個外部模型。這個託管於公有雲端上的模型,可能能產生高度精準且強大的解析。然而,所有這些公司的資料會混雜在一起,這使得確保任何一家公司的敏感資訊得到充分保護都變得極具挑戰性。

  3. 控制對內部 AI 模型的內部存取
    建立內部自研的 AI 模型,比將資料提供給外部模型使用的風險要小得多。使用內部模型,您可以更好地防止外部個人或企業存取您的資料。但您仍然需要控制內部人員對這些模型的存取權限。

    舉例來說,您可能決定為 HR 部門建立一個內部 AI 模型。HR 團隊可能希望使用 AI 聊天機器人來回答員工問題,或者運用 AI 來簡化薪資發放或行政工作流程。由於 HR 資料包含非常敏感的員工資訊,例如每位員工的薪資金額,因此您必須非常謹慎地控制對這些資料及所訓練模型的內部存取權限。

  4. 遵守資料在地化和主權義務
    資料在地化和資料主權法律為 AI 和資料治理帶來了另一項挑戰。大型 AI 模型通常是在具有訓練所需運算與儲存資源的公有雲端上進行訓練。然而,這些公有雲端資料中心並非總是位於資料應當存放的國家或地區。因此,企業需要能夠在特定司法管轄區內訓練與執行模型的方法。



加強資料治理的四個重要要素

實施有效的資料治理,至少在過去 20 年來一直是 IT 與安全團隊的核心目標。隨著 AI 的興起,建立一套涵蓋資料生命週期各階段的強大資料治理策略更顯重要。該策略應善用專為維護資料完整性、防止資料遺失、控管資料與模型存取權限,以及遵守資料在地化法規而設計的能力。

  1. 維護資料完整性
    如何降低資料遭竄改並影響模型的風險?加密資料並採用 Zero Trust 模型,有助於防止未經授權的變更,從而避免資料完整性受到危害。稽核記錄可追蹤資料的流向、哪些人曾接觸過資料,以及進行了哪些變更。

  2. 防止資料外流
    資料丟失預防 (DLP) 功能是識別並阻止資料離開您的組織以及防止其被用作未經授權 AI 模型之輸入的關鍵要素。

    企業還需要相關工具,來防止 SaaS 應用程式收集並使用內部資料訓練應用程式供應商的外部模型。舉例來說,在我擔任 CISO 的其中一家公司,某個應用程式供應商制定了這樣一項政策:使用者輸入該應用程式的任何內容,都可能被納入該供應商的大型語言模型 (LLM) 之中。我理解為什麼該供應商會想這麼做:毫無疑問,這有助於他們改進產品。舉例來說,如果我們使用 AI 來回應內部支援工單,我們自然會想要收集公司內部最常見的需求資料。

    然而,我們不希望潛在的敏感資訊透過第三方供應商的應用程式流出我們的組織。透過結合使用雲端存取安全性代理程式 (CASB) 與 AI 防火牆,有助於防止這類資料外洩情況的發生。

  3. 控制存取
    精細化存取控制功能有助於確保資料完整性,並保護用於內部模型的敏感性資訊。與傳統 VPN 不同,Zero Trust 功能可以幫助確保只有正確的人員能夠存取特定資料。

    為什麼精細化存取如此重要?讓我們回到 AI 在人力資源方面的應用:也許您的公司正在使用 AI 來簡化績效評估並提供薪酬建議。您可能想要讓一位經理能夠查看自己的薪酬資訊,以及其直屬下屬的薪酬資訊,但無權查看其他人的資料。正確的 Zero Trust 能力可以為您提供這種層級的控制。

  4. 遵守資料在地化規則
    透過正確的在地化控制,您可以決定資料在何處進行檢查,並確保資料與中繼資料不會離開特定地區。舉例來說,您可能擁有包含使用者 IP 位址的記錄中繼資料,而在 EU 地區,IP 位址被視為個人資料。這類中繼資料就必須留在 EU 境內。正確的資料在地化控制措施,能確保這些資料不會被用來在美國訓練模型。



藉助全球連通雲向前邁進

我們正處於 AI 發展的關鍵時刻,因為各企業正在打造和執行未來 20 至 30 年可能重塑世界的模型。為了確保我們能夠持續安全地訓練與執行 AI 模型,不暴露資料、不降低模型準確性,也不危及合規要求,我們必須從現在開始強化資料治理。

對於許多企業而言,全球連通雲提供了改善資料治理的最佳途徑,能幫助他們重新掌握資料在其整個生命週期中的控制權。透過一個由雲端原生服務組成的統一平台,企業可以應用所需的資料保護、安全性與資料在地化能力,同時避免管理多個分散工具所帶來的複雜性。

更好地控制資料將使我們能夠建立更強大的 AI 模型和應用程式。我們可以確保現在和未來都提供準確的結果,並將風險降至最低。

Cloudflare 就影響當今技術決策者的最新趨勢和主題發表了一系列文章,本文為其中之一。



深入探討這個主題。


閱讀《確保安全 AI 做法:CISO 可擴展的 AI 策略制定指南》,深入瞭解如何在企業中支援 AI 的使用,同時維持安全性。

作者

——Cloudflare 資安長 Grant Bourzikas (@rantbourzikas)



重點

閱讀本文後,您將能夠瞭解:

  • 為什麼成功的 AI 治理依賴於強大的資料治理

  • 治理 AI 所用資料的四大挑戰

  • 加強資料治理的策略


相關資源

收到最熱門網際網路深入解析的每月回顧!