theNet by CLOUDFLARE

Recupera el control de los rastreadores de IA

Cómo proteger el contenido y mejorar la ciberseguridad

Estamos entrando en una nueva era para Internet, impulsada por la IA. Esta nueva era ha comenzado con bots de IA, incluidos los rastreadores y herramientas de extracción de sitios web, que recopilan cada vez más datos para entrenar modelos de IA. El rastreo y la extracción no son nuevos. Las empresas de motores de búsqueda siempre han rastreado sitios web y extraído contenido para completar los resultados de búsqueda. Ese proceso siempre ha beneficiado a los propietarios de sitios web, ya que los resultados de búsqueda dirigían el tráfico de vuelta a sus sitios.

Sin embargo, al usar contenido extraído para entrenar modelos de IA, las empresas de IA y de motores de búsqueda están cambiando la manera en que los usuarios interactúan con el contenido en la web. Estos modelos de IA comenzaron a generar contenido derivado que ahora aparece como un resumen sobre los resultados del motor de búsqueda y como respuestas a consultas dentro de las herramientas de IA generativa. Los usuarios confían cada vez más en este contenido derivado y a menudo no visitan el sitio web original. Esto se ha convertido en un problema para las marcas y los creadores de contenido, especialmente para los editores, porque un menor tráfico a sus sitios web puede afectar su capacidad para promover suscripciones e ingresos publicitarios.

Al mismo tiempo, esta mayor confianza en el contenido derivado plantea problemas con la procedencia de los datos, la propiedad intelectual y el uso indebido del contenido. En resumen, los creadores de contenido ya no tienen control sobre su contenido.

Los bots de IA también presentan riesgos significativos en materia de seguridad y conformidad para todas las organizaciones, en todas las industrias. Estos bots pueden robar propiedad intelectual, comprometer aplicaciones web y encontrar vulnerabilidades que lleven a incidentes de seguridad o fugas de datos.

Debemos enfrentar directamente los desafíos de seguridad de los bots de IA, y debemos hacerlo ahora, porque la amenaza seguirá aumentando. Nosotros, como líderes de ciberseguridad, necesitamos mecanismos para proteger a nuestras organizaciones de cualquier bot dañino sin restringir las oportunidades de esta nueva era de Internet.


Cómo hacer frente al aumento del tráfico de bots con IA

Cuando estaba estudiando un máster en ciencia de datos y aprendizaje automático, me di cuenta de que las empresas de IA se apresurarían a recopilar grandes cantidades de datos de alta calidad. Cuantos más datos de alta calidad recopiles, mejor será tu modelo.

Sin embargo, el rápido aumento de la actividad de los rastreadores de IA en el último año ha sido asombroso. Los datos de Cloudflare Radar muestran que, de julio de 2024 a julio de 2025, las solicitudes sin procesar de GPTBot (que recopila datos de entrenamiento para ChatGPT) aumentaron un 147 %. Durante el mismo periodo, las solicitudes sin procesar de Meta-ExternalAgent (que ayuda a entrenar los modelos de IA de Meta) aumentaron un 843 %.

Mientras tanto, los sitios web continúan viendo actividad de otros tipos de bots de IA también. Los bots maliciosos, por ejemplo, no se dedican a extraer contenido, sino a buscar vulnerabilidades en las aplicaciones web, piratear cuentas de usuarios, realizar compras fraudulentas, enviar spam a través de formularios en línea, ralentizar el rendimiento de los sitios web, etc.

Un solo bot malicioso podría tener consecuencias desastrosas para una organización. Imagina que publicas temporalmente los resultados financieros trimestrales de tu empresa cotizada en bolsa en un sitio web provisional. Tu intención es publicar esos resultados solo después del cierre de la bolsa. Pero digamos que los bots pueden acceder a esa información antes y compartirla en una consulta de búsqueda para los usuarios. Estas personas podrían comenzar a negociar con tus acciones basándose en esta información privilegiada, lo que te expondría a multas reglamentarias y demandas judiciales.


¿Cómo se pueden abordar los nuevos desafíos de los bots impulsados por la IA?

Los líderes de ciberseguridad deben centrarse en detener todos los bots que puedan perjudicar a su organización. Pero hacerlo no es tan simple.

Las herramientas de IA están facilitando a los ciberdelincuentes, y a algunas empresas de IA, la creación de bots que eluden las defensas tradicionales. Por ejemplo, los ciberdelincuentes pueden usar la IA para crear bots que puedan evadir controles como el bloqueo de ubicación o de direcciones IP al cambiar la firma del bot o el vector de ataque. Las empresas de IA, y los ciberdelincuentes, también pueden crear bots de IA que imiten el comportamiento humano para superar los desafíos CAPTCHA.

La IA no solo ayuda a los ciberdelincuentes a crear bots "más inteligentes", también les permite lanzar invasiones de bots a una escala y velocidad sin precedentes, abrumando las defensas y controles existentes.


Desarrollo de una estrategia de seguridad multicapa para los bots de IA

Para detener los bots maliciosos de IA y controlar el rastreo y la apropiación de contenido, las organizaciones necesitan una estrategia de seguridad multicapa. Esta estrategia combina controles estáticos con capacidades más predictivas y dinámicas, y una gobernanza granular.

Capa 1: controles fundamentales / estáticos

Los controles estáticos proporcionan una base para la estrategia en capas, bloqueando los ataques de bots a gran escala a medida que ocurren y evitando que los bots impulsados por IA eludan las defensas tradicionales. Los controles estáticos incluyen:

Capa 2: controles predictivos / dinámicos

Sobre esa base, puedes implementar controles más predictivos y dinámicos que anticipen y detecten las amenazas de bots antes de que causen daño. Las capacidades predictivas incluyen funciones como:

  • Supervisión de la información sobre amenazas en tiempo real para identificar las amenazas emergentes antes de que lleguen a tu organización.

  • Registro detallado del tráfico del sitio web para entender cómo se comportan típicamente tanto los usuarios auténticos como los bots en tu sitio.

  • Detección de anomalías de comportamiento, utilizando el aprendizaje automático para establecer un comportamiento de usuario de referencia e identificar desviaciones.

Capa 3: gobernanza granular y permisos para rastreadores de IA

Podrías bloquear todos los bots por defecto. Pero es posible que desees permitir que ciertos bots de IA extraigan contenido de tu sitio para que este aparezca en las vistas generales de IA o en las respuestas de IA generativa. Para gestionar qué bots de IA pueden interactuar con tu sitio, necesitas una capa de gobernanza entre los bots y tu contenido. Esa capa requiere numerosas capacidades interrelacionadas:

  • Auditoría de IA: las funciones de auditoría proporcionan una visibilidad clara de qué bots acceden a tu sitio web y cómo interactúan con él.

  • Verificación criptográfica: para ayudar a proporcionar esa visibilidad, los bots pueden identificarse firmando criptográficamente las solicitudes procedentes de su servicio. Pueden indicar su propósito y ofrecerte la opción de permitir o no el rastreo.

  • Control granular sobre el contenido: el control granular te permite gestionar qué bots pueden visitar tu sitio y a qué páginas pueden acceder. Un editor puede bloquear a los programas de extracción de datos de las páginas en las que el contenido original se monetiza a través de anuncios. Sin embargo, una empresa tecnológica podría permitir que los bots recopilen la documentación para desarrolladores.

  • Pago por rastreo: una función de pago por rastreo te daría la opción de cobrar a las empresas que extraen tu contenido. Si una empresa está utilizando tu contenido para entrenar su modelo, ¿no deberían tener que pagarte por ello?


Creación de una red de Internet basada en permisos

Cloudflare ofrece los servicios en la nube necesarios para desarrollar una estrategia de bots de IA en múltiples capas. Con Cloudflare, puedes implementar controles estáticos y dinámicos, así como controles granulares para una gestión de bots precisa.

Las funciones de nuestra solución AI Audit permiten a los equipos supervisar y controlar cómo los bots de IA interactúan con el contenido del sitio web. Puedes ver qué servicios de IA están accediendo a tu sitio, establecer políticas para permitir o bloquear rastreadores y programas de extracción de contenido, y hacer un seguimiento de qué bots siguen tus directivas. La función de pago por rastreo dentro de AI Audit también te permitirá monetizar el acceso de los bots de IA, exigiendo a los propietarios de los bots que te paguen por rastrear y extraer datos de tu sitio web.

Con estas funciones, Cloudflare, junto con los principales editores y empresas de IA del mundo, está desarrollando un modelo basado en permisos para Internet. Más que simplemente bloquear bots dañinos, estamos creando un modelo que beneficiará a numerosas organizaciones, incluidos los creadores de contenido, así como las empresas legítimas de motores de búsqueda y de IA que están dispuestas a pagar por contenido que pueda entrenar sus modelos de IA.

No hay duda de que la IA está cambiando el funcionamiento de Internet. Con Cloudflare, puedes proteger a tu organización de los riesgos que plantea la IA mientras aprovechas las oportunidades de la nueva era de Internet.

Este artículo forma parte de un conjunto de publicaciones sobre las últimas tendencias y temas que afectan a los responsables de la toma de decisiones sobre tecnología en la actualidad.


Más información sobre este tema

Aprende a apoyar el uso de la IA en la empresa manteniendo la seguridad en Garantizar prácticas seguras para el uso de la IA | Guía del CISO sobre cómo crear una estrategia de IA escalable.

Autor

Grant Bourzikas — @grantbourzikas
Director de seguridad, Cloudflare



CONCLUSIONES CLAVE

Después de leer este artículo podrás entender:

  • Por qué está aumentando la actividad de los rastreadores de IA y otros bots

  • Los riesgos de seguridad que plantea la afluencia de rastreadores de IA

  • Cómo controlar los bots con una estrategia de seguridad multicapa


Recursos relacionados

¿Quieres recibir un resumen mensual de la información más solicitada de Internet?