theNet by Cloudflare


AI 治理始于数据治理

对于 IT 和安全领导者而言,AI 治理已成为高优先级事项。随着构建的 AI 模型和使用的 AI 解决方案都越来越多,我们需要实施适度的治理和策略,最大限度地减轻风险并确保业务安全

毫无疑问,AI 治理至关重要。但由于 AI 依赖数据,因此,AI 治理必须从数据治理开始。我们需要确保数据完整性、数据保护、数据和 AI 模型的访问控制功能,以及制定安全策略来遵守数据隐私法规并履行数据本地化义务

改善数据治理不仅可以降低与 AI 相关的风险,而且还有助于最大限度地发挥 AI 对业务的影响。如果贵公司正投资 AI,则加强数据治理刻不容缓。

____________________________________________________________________________

AI 数据治理面临的挑战

为什么 AI 数据治理如此困难?大多数情况下,企业面临着多年来持续存在的相同数据治理挑战。但是,使用数据来构建 AI 模型确实会增加一些额外的复杂性,例如:

  1. 保持数据完整性
    AI 模型需要完整、准确且一致的数据,才能提供正确的答案。但是,汇总这些数据并在其整个生命周期内维持数据的完整性可能并非易事。

    为了维持数据完整性,企业必须采用多方位方法来防范数据损坏、数据丢失、数据泄露以及其它风险。这种方法应该严格控制对数据和模型的访问,以防止意外或蓄意的损坏。与此同时,为了避免模型偏移,确保用于训练的数据与模型部署过程中使用的数据保持一致也至关重要。

  2. 维持数据隐私和机密性
    了解数据所在位置,是制定完善的数据治理策略的基础。当数据离开企业范围之后,维持数据隐私和机密性变得更具挑战性。如果将数据用于大型 AI 模型的训练,则几乎可以肯定,数据会离开企业。

    想象一下,排名前 20 的安全公司决定共享各自的安全运营中心 (SOC) 数据,来训练外部模型。这个托管在公共云中的模型,可能会生成高度准确、有影响力的见解。然而,所有这些公司的数据都会混合在一起;因此,确保其中任何一家公司的敏感信息得到充分保护都会变得极其困难。

  3. 控制内部用户对内部 AI 模型的访问
    与向外部模型提供数据相比,构建内部模型的风险要小得多。使用内部模型,您可以更好地阻止外部个人或公司访问企业数据。但是,您仍然需要控制内部用户对模型的访问。

    例如,您可能决定为人力资源 (HR) 部门构建一个内部 AI 模型。HR 团队可能希望使用 AI 聊天机器人来回答员工的问题,或者使用 AI 来简化工资单或管理任务。由于 HR 数据包含非常敏感的员工信息,例如每位员工的薪酬金额;因此,必须非常谨慎地控制内部用户对这些数据以及正在训练的模型的访问。

  4. 遵守数据本地化和数据主权义务
    数据本地化和数据主权法律为 AI 和数据治理带来了另一项挑战。大型 AI 模型通常在公共云中训练,这些公共云拥有训练所需的计算和存储资源。但是,在数据驻留预期位置所处的国家或地区,公共云数据中心并非随时可用。因此,企业需要找到方法,在特定的司法管辖区内训练和运行模型。



加强数据治理的四个基本要素

至少 20 年来,实施有效的数据治理一直是 IT 团队和安全团队的核心目标。而 AI 的兴起则强化了对涵盖数据生命周期每个阶段的强有力数据治理策略的需求。该策略应充分利用旨在维持数据完整性、防止数据丢失、控制对数据和模型的访问,以及遵守数据本地化法规要求的多种功能。

  1. 保持数据完整性
    如何降低数据遭到篡改进而影响模型的风险?加密数据并采用 Zero Trust 模型有助于防止未经授权的更改,从而避免数据完整性受到威胁。审计日志可以跟踪数据的传输路径、访问人员,以及所做更改。

  2. 防止数据外泄
    数据丢失防护 (DLP) 功能是识别并阻止数据离开企业,以及防止数据被用作未经批准的 AI 模型输入的关键。

    企业还需要一些工具,防止 SaaS 应用收集和使用内部数据来训练应用供应商的外部模型。在我担任 CISO 的一家公司,某个应用供应商制定了一项政策,表示所有用户在应用中输入的一切内容,都可能会被纳入该供应商的大型语言模型 (LLM)。我理解该供应商这样做的原因:毫无疑问,这有助于他们改进自己的模型产品。例如,如果我们使用 AI 来响应内部支持工单,则希望收集关于公司内最热门请求的数据。尽管如此,我们仍然不希望潜在的敏感信息通过其它供应商的应用泄露到企业外部。组合使用云访问安全代理 (CASB) 与 AI 防火墙,有助于防止此类数据丢失。

  3. 控制访问
    精细化的访问控制功能有助于确保数据的完整性,并保护用于内部模型的敏感信息。与传统 VPN 不同,Zero Trust 功能有助于确保只有适当的人员才能访问特定数据。

    为什么精细化访问如此重要?让我们说回到 AI 在人力资源部门中的应用:也许贵公司正使用 AI 来简化绩效评估并提出薪酬建议。您可能希望让经理查看他/她们各自的薪酬信息及其直接下属的薪酬信息,但不允许查看其他任何人的薪酬信息。适当的 Zero Trust 功能可以提供这种程度的精细化访问控制。

  4. 遵守数据本地化规则
    通过采取适当的本地化控制措施,企业可以决定在何处检查数据,并确保数据和元数据不会离开特定区域。例如,您可能拥有包含用户 IP 地址的日志元数据,而这些 IP 地址在欧盟范围内被视为个人数据。这些元数据需要留在欧盟。适当的本地化控制措施将确保此类数据不会用于训练美国境内的模型。



采用全球连通云,勇往直前

当前正处于 AI 发展的关键阶段,因为各企业构建和运行的模型可能会在未来二三十年重塑这个世界。为了确保可以继续安全地训练和运行 AI 模型,即:不暴露数据、不降低模型的准确性、不危及合规性,我们必须立即开始加强数据治理。

对于许多企业来说,Cloudflare 全球连通云可以提供改善数据治理的最佳路径,使其能够在整个数据生命周期内重新掌控数据。采用统一的云原生服务平台,企业可以应用所需的数据保护、安全和数据本地化功能,同时避免管理多个不同工具的复杂性。

优化数据控制让企业能够构建更强大的 AI 模型和应用,从而确保提供准确的结果并最大限度地降低风险,无论现在还是未来都能做到。

Cloudflare 就影响当今技术决策者的最新趋势和主题发布了系列文章,本文为其中之一。



深入探讨这个话题


阅读《确保安全的 AI 实践:CISO 创建可扩展的 AI 战略的指南》电子书,进一步了解如何在企业内部支持使用 AI 并确保安全。

作者

Grant Bourzikas — @grantbourzikas
Cloudflare 首席安全官



关键要点

阅读本文后,您将能够了解:

  • 为什么成功的 AI 治理离不开强有力的数据治理

  • 治理 AI 所用数据面临的四个主要挑战

  • 加强数据治理的策略


相关资源

接收有关最流行互联网见解的每月总结。