Bloquea (gratis) los bots IA con Cloudflare 🤖🕷

Inteligencia Artificial

Bloquea (gratis) los bots IA con Cloudflare 🤖🕷

Ramón Rautenstrauch Actualizado a10/julio/2024

Cloudflare ha lanzado una nueva función para bloquear bots de IA, escrapeadores y rastreadores con un solo clic, y es gratis.

A medida que los rastreadores de IA siguen engullendo contenido web, esta herramienta ayuda a proteger su contenido para que no se utilice sin consentimiento. Muchos rastreadores de IA ignoran las exclusiones de robots txt o falsifican sus agentes de usuario.

Hasta ahora, el archivo robots.txt ha sido bastante fiable para ayudar a controlar los robots, pero los datos muestran que los robots de IA no parecen respetar ese sistema.

Por qué usar esto?

Evita el uso no autorizado de tus datos para el entrenamiento de IA.
Reducir el mantenimiento del archivo robots txt.
Bloquea automáticamente los nuevos bots identificados por Cloudflare.

Los bots de AI que más ha detectado Cloudflare:

Bytespider – TikTok (40,4% de los sitios accedidos).
GPTBot – OpenAI (35,46% de los sitios consultados)
ClaudeBot – Anthropic (11,17% de los sitios consultados)

Los bots de AI que más ha detectado Cloudflare

Los bots de AI que más ha detectado Cloudflare

Acciones tomadas por los clientes de Cloudflare frente a rastreadores de IA

Claramente que los clientes no quieren que los robots de IA visiten sus sitios web, y especialmente aquellos que lo hacen de forma deshonesta. Para ayudar, hemos añadido una nueva función de un solo clic para bloquear todos los robots de IA. Está disponible para todos los clientes, incluidos los de la versión gratuita. Para activarla, solo tienes que ir a la sección Seguridad > Bots del panel de control de Cloudflare y hacer clic en el botón de AI Scrapers and Crawlers.

No todos los sitios web querrán bloquear los bots y rastreadores de IA, pero para los que sí, esta es una solución fácil con un solo clic y poco mantenimiento.

Cómo Cloudflare descubre bots de IA que simulan ser navegadores web reales

Lamentablemente, Cloudflar ha observado que los operadores de bots intentan aparentar ser un navegador real utilizando un agente de usuario falso. Se ha supervisado esta actividad a lo largo del tiempo, y su modelo global de aprendizaje automático siempre ha reconocido esta actividad como un bot, incluso cuando los operadores mienten sobre su agente de usuario.

Tomemos un ejemplo de un bot específico que otros observaron que ocultaba su actividad. Se realiza un análisis para ver cómo puntuaban nuestros modelos de aprendizaje automático el tráfico procedente de este bot. En el diagrama siguiente, se puede ver que todas las puntuaciones de bot están firmemente por debajo de 30, lo que indica que nuestra puntuación cree que es probable que esta actividad provenga de un bot.

How we find AI bots pretending to be real web browsers

El diagrama refleja la puntuación de las solicitudes utilizando su modelo más reciente, en el que los colores «más vivos» indican que hay más solicitudes en esa franja, y los colores «más fríos» significan que hay menos solicitudes. Podemos ver que la gran mayoría de las peticiones caen en las dos bandas inferiores, lo que muestra que el modelo de Cloudflare dio al bot infractor una puntuación de 9 o menos. Los cambios en el agente de usuario no tienen ningún efecto en la puntuación, porque esto es lo primero que esperan que hagan los operadores de bots.

Cualquier cliente con una regla WAF existente configurada para desafiar a los visitantes con una puntuación de bot inferior a 30 (la recomendación de Cloudflare) bloqueó automáticamente todo este tráfico de bot de IA sin ninguna acción nueva por su parte. Lo mismo ocurrirá con futuros bots de IA que utilicen técnicas similares para ocultar su actividad.

Aprovechan las señales globales de Cloudflare para calcular nuestra puntuación de bots, que para bots de IA como el anterior, refleja que los identificamos y puntuamos correctamente como «bot probable».

Cuando los ciberdelincuentes intentan rastrear sitios web a gran escala, suelen utilizar herramientas que se puedan identificar. Para cada huella digital que ven, utilizan la red de Cloudflare, que ve más de 57 millones de solicitudes por segundo de media, para entender hasta qué punto debemos confiar en esta huella digital. Para potenciar sus modelos, calculan agregados globales a través de muchas señales. Sobre la base de estas señales, sus modelos fueron capaces de marcar adecuadamente el tráfico de bots de IA evasivos, como el ejemplo mencionado anteriormente, como bots.

El resultado de estos datos agregados globalmente es que se pueden detectar inmediatamente nuevas herramientas de scraping y su comportamiento sin necesidad de identificar manualmente al bot, lo que garantiza que los clientes permanezcan protegidos de las nuevas oleadas de actividad.

¿Quieres saber más sobre la inteligencia artificial generativa? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada la información oficial de Cloudflare: «Declare your AIndependence: block AI bots, scrapers and crawlers with a single click«.

Ramón Rautenstrauch

Conecta conmigo en LinkedIN
Apasionado ❤️ del Marketing. SEO 🧠. CMO 😍. Consultor Copilot, IA y Dynamics 365 Customer Insights. Soñador 💭. Facilitador PLAYMOBILpro.
Acerca de Ramón Rautenstrauch, autor de Consultor365.com

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.