Bloquea (gratis) los bots IA con Cloudflare 馃馃暦
Cloudflare ha lanzado una nueva funci贸n para bloquear bots de IA, escrapeadores y rastreadores con un solo clic, y es gratis.
A medida que los rastreadores de IA siguen engullendo contenido web, esta herramienta ayuda a proteger su contenido para que no se utilice sin consentimiento. Muchos rastreadores de IA ignoran las exclusiones de robots txt o falsifican sus agentes de usuario.
Hasta ahora, el archivo robots.txt ha sido bastante fiable para ayudar a controlar los robots, pero los datos muestran que los robots de IA no parecen respetar ese sistema.
Por qu茅 usar esto?
- Evita el uso no autorizado de tus datos para el entrenamiento de IA.
- Reducir el mantenimiento del archivo robots txt.
- Bloquea autom谩ticamente los nuevos bots identificados por Cloudflare.
Los bots de AI que m谩s ha detectado Cloudflare:
- Bytespider – TikTok (40,4% de los sitios accedidos).
- GPTBot – OpenAI (35,46% de los sitios consultados)
- ClaudeBot – Anthropic (11,17% de los sitios consultados)
Claramente que los clientes no quieren que los robots de IA visiten sus sitios web, y especialmente aquellos que lo hacen de forma deshonesta. Para ayudar, hemos a帽adido una nueva funci贸n de un solo clic para bloquear todos los robots de IA. Est谩 disponible para todos los clientes, incluidos los de la versi贸n gratuita. Para activarla, solo tienes que ir a la secci贸n Seguridad > Bots
del panel de control de Cloudflare y hacer clic en el bot贸n de AI Scrapers and Crawlers.
No todos los sitios web querr谩n bloquear los bots y rastreadores de IA, pero para los que s铆, esta es una soluci贸n f谩cil con un solo clic y poco mantenimiento.
C贸mo Cloudflare descubre bots de IA que simulan ser navegadores web reales
Lamentablemente, Cloudflar ha observado que los operadores de bots intentan aparentar ser un navegador real utilizando un agente de usuario falso. Se ha supervisado esta actividad a lo largo del tiempo, y su modelo global de aprendizaje autom谩tico siempre ha reconocido esta actividad como un bot, incluso cuando los operadores mienten sobre su agente de usuario.
Tomemos un ejemplo de un bot espec铆fico que otros observaron que ocultaba su actividad. Se realiza un an谩lisis para ver c贸mo puntuaban nuestros modelos de aprendizaje autom谩tico el tr谩fico procedente de este bot. En el diagrama siguiente, se puede ver que todas las puntuaciones de bot est谩n firmemente por debajo de 30, lo que indica que nuestra puntuaci贸n cree que es probable que esta actividad provenga de un bot.
El diagrama refleja la puntuaci贸n de las solicitudes utilizando su modelo m谩s reciente, en el que los colores 芦m谩s vivos禄 indican que hay m谩s solicitudes en esa franja, y los colores 芦m谩s fr铆os禄 significan que hay menos solicitudes. Podemos ver que la gran mayor铆a de las peticiones caen en las dos bandas inferiores, lo que muestra que el modelo de Cloudflare dio al bot infractor una puntuaci贸n de 9 o menos. Los cambios en el agente de usuario no tienen ning煤n efecto en la puntuaci贸n, porque esto es lo primero que esperan que hagan los operadores de bots.
Cualquier cliente con una regla WAF existente configurada para desafiar a los visitantes con una puntuaci贸n de bot inferior a 30 (la recomendaci贸n de Cloudflare) bloque贸 autom谩ticamente todo este tr谩fico de bot de IA sin ninguna acci贸n nueva por su parte. Lo mismo ocurrir谩 con futuros bots de IA que utilicen t茅cnicas similares para ocultar su actividad.
Aprovechan las se帽ales globales de Cloudflare para calcular nuestra puntuaci贸n de bots, que para bots de IA como el anterior, refleja que los identificamos y puntuamos correctamente como 芦bot probable禄.
Cuando los ciberdelincuentes intentan rastrear sitios web a gran escala, suelen utilizar herramientas que se puedan identificar. Para cada huella digital que ven, utilizan la red de Cloudflare, que ve m谩s de 57 millones de solicitudes por segundo de media, para entender hasta qu茅 punto debemos confiar en esta huella digital. Para potenciar sus modelos, calculan agregados globales a trav茅s de muchas se帽ales. Sobre la base de estas se帽ales, sus modelos fueron capaces de marcar adecuadamente el tr谩fico de bots de IA evasivos, como el ejemplo mencionado anteriormente, como bots.
El resultado de estos datos agregados globalmente es que se pueden detectar inmediatamente nuevas herramientas de scraping y su comportamiento sin necesidad de identificar manualmente al bot, lo que garantiza que los clientes permanezcan protegidos de las nuevas oleadas de actividad.
Informaci贸n basada la informaci贸n oficial de Cloudflare: 芦Declare your AIndependence: block AI bots, scrapers and crawlers with a single click芦.