#main-nav-header { display:none; }

Recuperar o controle dos crawlers de IA

Como proteger o conteúdo e fortalecer a cibersegurança

Estamos entrando em uma nova era para a Internet, impulsionada pela IA. Esta nova era começou com bots de IA, incluindo crawlers e raspadores de sites, coletando cada vez mais dados para treinar modelos de IA. Varredura e raspagem não são novidades: as empresas de mecanismos de busca sempre rastrearam sites e extraíram conteúdo para preencher os resultados de busca. Esse processo sempre beneficiou os proprietários de sites, pois os resultados das buscas redirecionavam o tráfego de volta para seus sites.

Mas, ao utilizar conteúdo extraído para treinar modelos de IA, as empresas de IA e de mecanismos de busca estão alterando a forma como os usuários interagem com o conteúdo na web. Esses modelos de IA começaram a gerar conteúdo derivado que agora aparece como uma visão geral acima dos resultados dos mecanismos de busca e como respostas a consultas nas ferramentas de IA generativa (GenAI). Os usuários confiam cada vez mais nesse conteúdo derivado, e muitas vezes não visitam o site original. Isso se tornou problemático para marcas e criadores de conteúdo, especialmente para editores de mídia, porque menos tráfego em seus sites pode afetar a capacidade de estimular assinaturas e a receita de publicidade.

Ao mesmo tempo, esse aumento da confiança no conteúdo derivativo levanta questões sobre a proveniência dos dados, a propriedade intelectual e o uso indevido de conteúdo: em resumo, os criadores de conteúdo não têm mais controle sobre seu conteúdo.

Os bots de IA também apresentam riscos significativos de segurança e conformidade para todas as organizações, em todos os setores. Esses bots podem roubar propriedade intelectual, comprometer aplicativos web e identificar vulnerabilidades que resultem em incidentes de segurança ou violações de dados.

Precisamos enfrentar os desafios de segurança dos bots de IA diretamente, e precisamos fazer isso agora, porque a ameaça continuará a crescer. Nós, como líderes em segurança cibernética, precisamos de mecanismos para proteger nossas organizações contra bots prejudiciais, sem restringir as oportunidades desta nova era da internet.

Enfrentar o aumento do tráfego de bots de IA

Quando eu estava cursando um mestrado em ciência de dados e aprendizado de máquina, ficou evidente que as empresas de IA competiriam para coletar grandes volumes de dados de alta qualidade. Quanto mais dados de alta qualidade você coletar, melhor será o seu modelo.

Mas o rápido aumento da atividade dos crawlers de IA apenas no ano passado foi surpreendente: dados do Cloudflare Radar mostram que, de julho de 2024 a julho de 2025, as solicitações brutas do GPTBot (que coleta dados de treinamento para o ChatGPT) aumentaram 147%. Durante o mesmo período, as solicitações brutas do Meta-ExternalAgent (que auxilia no treinamento dos modelos de IA da Meta) aumentaram 843%.

Enquanto isso, os sites continuam a ver atividades de outros tipos de bots de IA também. Bots maliciosos, por exemplo, não estão raspando conteúdo, eles estão escaneando vulnerabilidades em aplicativos web, invadindo contas de usuários, realizando compras fraudulentas, enviando spam por meio de formulários online, diminuindo o desempenho do site e mais.

Um único bot malicioso pode ter consequências desastrosas para uma organização. Imagine que você coloque temporariamente os resultados financeiros trimestrais de sua empresa de capital aberto em um site de teste. Você planeja publicar esses resultados somente após o fechamento do mercado de ações para o dia. Mas suponhamos que os bots consigam acessar essas informações antecipadamente e compartilhá-las em uma consulta de pesquisa para os usuários. Esses indivíduos podem começar a negociar suas ações com base nessas informações confidenciais não públicas, deixando você exposto a multas regulatórias e processos judiciais.

Como você pode lidar com os novos desafios de bots com tecnologia de IA?

Os líderes de segurança cibernética devem se concentrar em parar todos os bots que possam prejudicar sua organização. Mas fazer isso não é tão simples.

As ferramentas de IA estão facilitando para cibercriminosos, e algumas empresas de IA, a criação de bots que evitam as defesas tradicionais. Por exemplo, cibercriminosos podem usar IA para desenvolver bots que conseguem contornar controles como bloqueio de localização ou de endereços de IP, alterando a assinatura ou o vetor de ataque do bot. Empresas de IA, e cibercriminosos, também podem criar bots de IA que imitam o comportamento humano para derrotar desafios de CAPTCHA.

A IA não apenas ajuda os cibercriminosos a criar bots “mais inteligentes”. Ela também permite que eles lancem invasões de bots em uma escala e velocidade sem precedentes, sobrecarregando as defesas e controles existentes.

Construir uma estratégia de segurança em várias camadas para bots de IA

Para impedir bots de IA maliciosos e controlar a varredura e a raspagem de conteúdo, as organizações precisam de uma estratégia de segurança em várias camadas. Essa estratégia combina controles estáticos com recursos mais preditivos, dinâmicos e governança granular.

Camada 1: controles fundamentais/estáticos

Os controles estáticos fornecem uma base para a estratégia multicamadas, bloqueando ataques de bots em larga escala à medida que ocorrem e impedindo que os bots alimentados por IA contornem as defesas tradicionais. Os controles estáticos incluem:

Desafios sem CAPTCHA que bloqueiam bots sem desacelerar usuários reais.
Autenticação multifator (MFA), que pode impedir que bots automatizados progridam com nomes de usuário e senhas.
Limitação de taxa, que pode impedir ataques de tentativas de quebra de senha com força bruta baseados em bots, ataques de DDoS e raspagem de conteúdo.
Redirecionamento de bots para conteúdo alternativo para desacelerar, confundir e desperdiçar intencionalmente os recursos de bots indesejados.

Camada 2: controles preditivos/dinâmicos

Com base nessa fundação, você pode implementar controles mais preditivos e dinâmicos que antecipam e detectam ameaças de bots antes que causem algum dano. Os recursos preditivos incluem, por exemplo:

Monitoramento de feeds de inteligência contra ameaças em tempo real para identificar ameaças emergentes antes que elas cheguem à sua organização.
Registro detalhado do tráfego no site para entender como os usuários autênticos e os bots normalmente se comportam em seu site.
Detecção de anomalias comportamentais, usando aprendizado de máquina para estabelecer o comportamento básico de usuários e identificar desvios.

Camada 3: governança granular e permissão para crawlers de IA

Você poderia bloquear todos os bots por padrão. Mas talvez você queira permitir que determinados bots de IA rastreiem seu site para que seu conteúdo apareça nas visões gerais de IA ou nas respostas da GenAI. Para controlar quais bots de IA podem interagir com seu site, você precisa de uma camada de governança entre os bots e seu conteúdo. Essa camada requer múltiplos recursos inter-relacionados:

AI audit: os recursos de auditoria fornecem visibilidade clara sobre quais bots estão acessando seu site e como estão interagindo com ele.
Verificação criptográfica: para ajudar a fornecer essa visibilidade, os bots podem se identificar assinando criptograficamente as solicitações provenientes de seus serviços. Eles podem declarar seu propósito e oferecer a opção de permitir ou não a varredura.
Controle granular sobre o conteúdo: o controle granular permite que você gerencie quais bots podem visitar seu site e quais páginas podem acessar. Um editor pode bloquear raspadores de páginas cujo conteúdo original é monetizado através de anúncios. No entanto, uma empresa de tecnologia pode permitir que bots raspem a documentação para desenvolvedores.
Pagamento por varredura: o recurso de pagamento por varredura oferece a opção de cobrar das empresas que raspam seu conteúdo. Se uma empresa usa seu conteúdo para treinar seu modelo, ela não deveria pagar por isso?

Criar uma internet baseada em permissões

A Cloudflare oferece os serviços baseados em nuvem necessários para desenvolver uma estratégia de bots de IA em várias camadas. Com a Cloudflare, é possível implementar controles estáticos e dinâmicos, além de controles granulares para um gerenciamento de bots preciso.

Recursos do AI audit permitem que as equipes monitorem e controlem como os bots de IA interagem com o conteúdo do site. Você pode ver quais serviços de IA estão acessando seu site, definir políticas para permitir ou bloquear crawlers e raspadores e acompanhar quais bots seguem suas diretrizes. O recurso pagamento por varredura dentro do AI audit também permite que você monetize o acesso de bots de IA, exigindo que os proprietários de bots paguem pela varredura e raspagem de seu site.

Com esses recursos, a Cloudflare, juntamente com os principais editores e empresas de IA do mundo, está criando um modelo baseado em permissão para a internet. Mais do que apenas bloquear bots prejudiciais, estamos criando um modelo que beneficiará várias organizações, incluindo criadores de conteúdo, bem como mecanismos de busca legítimos e empresas de IA que estão dispostas a pagar por conteúdo que possa treinar seus modelos de IA.

Não há dúvida de que a IA está mudando a forma como a internet funciona. Com a Cloudflare, você pode proteger sua organização dos riscos que a IA introduz e aproveitar as oportunidades da nova era da internet.

Este artigo é parte de uma série sobre as tendências e os assuntos mais recentes que influenciam os tomadores de decisões de tecnologia hoje em dia.

Saiba mais sobre esse assunto

Saiba como apoiar o uso de IA na empresa e manter a segurança em Garantir práticas seguras de IA: um guia para CISOs sobre como criar uma estratégia de IA escalável.

Autoria

Grant Bourzikas — @grantbourzikas
Chief Security Officer, Cloudflare

Principais conclusões

Após ler este artigo, você entenderá:

Por que a atividade de crawlers de IA e outros bots está aumentando
Os riscos de segurança que um aumento de crawlers de IA apresenta
Como assumir o controle de bots usando uma estratégia de segurança em várias camadas

Recursos relacionados

Receba um resumo mensal das informações mais populares da internet.

Assine o theNET