El entrenamiento de la IA debería pasar por dar consentimiento

El entrenamiento de la IA debería pasar por dar consentimiento

Hoy hace exactamente un año, Google publicó una entrada en su blog en la que prometía un «debate público» sobre las nuevas formas en que los editores web podrían controlar la forma en que las empresas de IA escrapean y entrenan sus modelos con nuestro contenido.

Al final, Google nunca ofreció ese debate ni nuevas formas de controlar el entrenamiento de la IA.

¿Quién lo consiguió? Reddit

¿Pero sabes quién SÍ consiguió ambas cosas? Reddit.

Y, en retrospectiva, parece que la entrada del blog de Google se trataba en realidad de una pose para llegar a un trato de favor con Reddit … y ganar tiempo para que Google pudiera publicar sus Perspectivas Generales de la IA antes de que los editores contraatacaran …

Vale, han pasado muchas cosas desde el pasado julio, pero pongámoslo todo en el contexto de lo que sabemos ahora:

  • La primavera pasada, la dirección de Reddit fue muy clara sobre las empresas de IA que entrenan en su contenido
  • A Reddit, como a la mayoría de los editores, no le gustaba dejar que las empresas de IA entrenaran en su contenido de forma gratuita. Excepto que, a diferencia de la mayoría de los editores, Reddit tenía una influencia significativa sobre Google.
  • Durante años Google ha utilizado la API gratuita de Reddit para acceder a los datos de Reddit. Así que la administración de Reddit jugó duro y cortó el acceso gratuito a la API.
  • Pero eso tuvo un efecto en cadena: molestó a un montón de subreddits, porque esa API gratuita era también la base de un montón de aplicaciones de terceros que los Redditors usaban y amaban. Así que un montón de subreddits se rebelaron en los infames «apagones de Reddit».
  • Y en ese momento un montón de contenido de Reddit no se podía encontrar en Google.

Los apagones causan mucha preocupación en Google

El 26 de junio de 2023, la CNBC publicó una grabación interna de una reunión de Google. He aquí una cita de ese artículo:

  • «Otra de las preguntas de los empleados en la reunión de toda la empresa se refería a si Google podría sacar a la luz más fácilmente «debates auténticos», ya que el «apagón de Reddit» estaba dificultando la búsqueda de este tipo de contenidos. El CEO Sundar Pichai intervino para decir que los usuarios no quieren «enlaces azules» tanto como quieren «respuestas más completas.» Por eso añaden el nombre de sitios de foros como Reddit a sus búsquedas.
  • La traducción del lenguaje de «Google» es la siguiente: Pichai está diciendo básicamente: «Claro, queremos que los apagones terminen, pero ¿sabes qué sería realmente genial? ¿Y si nuestra IA pudiera resumir un montón de hilos de Reddit y otros contenidos web, de forma que los buscadores ni siquiera tuvieran que salir de Google para encontrar sus respuestas?».

Este tipo de «búsquedas con cero clics» son geniales para Google, pero absolutamente horribles para los editores y los titulares de derechos de autor.

Y la dirección de Reddit no es estúpida. Lo que plantea un problema obvio con el enfoque de Pichai a la búsqueda en la era de la IA …

¿Qué gana Reddit?

Como todos los titulares de derechos de autor, Reddit (comprensiblemente) quiere control y compensación cuando las empresas de IA utilizan su contenido.

Pero (a diferencia de la mayoría de los editores), Reddit tenía suficiente músculo para hacer algo al respecto. Y necesitaban actuar con rapidez para aumentar el precio de sus acciones antes de su inminente salida a bolsa.

Así que Reddit jugó duro con Google y cerró su API gratuita. Y Reddit incluso empezó a hacer ruido sobre el bloqueo de los rastreadores de Google por completo a través de robots.txt.

Y, aunque en aquel momento no lo sabíamos, ahora sabemos que Google y Reddit estaban negociando para llegar a un acuerdo …..

El 6 de julio de 2023, Google publicó esta entrada en Twitter/X:

Today, we’re kicking off a public discussion to explore a machine-readable means for web publisher choice and control for emerging AI & research use cases. Learn more on this effort, including how to join the discussion.

Google SearchLiaison / Danny Sullivan en Twitter/X
Today, we’re kicking off a public discussion to explore a machine-readable means for web publisher choice and control for emerging AI & research use cases. Learn more on this effort, including how to join the discussion.

He aquí un resumen de lo que decía la entrada del blog de Google:

  • Google entiende que a los editores les preocupe la formación en IA.
  • Google reconoce las limitaciones de robots.txt en este contexto, y está de acuerdo en que necesitamos una solución mejor que una directiva robots.txt
  • Google va a iniciar un «debate público» e invitará a participar a un amplio abanico de voces.

Robots.txt

¿Y sabes qué? Google tenía toda la razón sobre el punto clave: que robotsx.txt es una forma absolutamente INCREÍBLE de tratar el consentimiento de los editores sobre la formación en IA. He aquí por qué un sistema de exclusión como Robots.txt falla fundamentalmente:

  • Los editores tienen que saber realmente a quién bloquear: Muchas grandes empresas de IA «entrenan primero y piden permiso después». Por ejemplo, Apple anunció recientemente su nuevo modelo de «Inteligencia de Apple» — y luego, después del hecho, anunció que los editores podrían bloquear el entrenamiento adicional mediante el bloqueo de Apple-Extended en robots.txt
  • Robots.txt invierte la responsabilidad legal de obtener el consentimiento: Si vas a utilizar los derechos de autor de alguien, TÚ eres el que necesita obtener el permiso para hacerlo. No es responsabilidad del titular de los derechos impedir que los infrinjas.
  • Robots.txt no resuelve el problema de otras copias del contenido: Muchos contenidos de la web se vuelven a publicar en otros sitios: por spammers, por usuarios de plataformas de redes sociales, en fuentes RSS, etc. Bloquear un scraper de IA con robots.txt no impide que ese scraper obtenga exactamente la misma imagen de cualquiera de los otros 30 lugares en los que está publicada en Internet.
  • De todos modos, las empresas de IA pueden ignorar robots.txt, y de hecho lo hacen. Robots.txt no significa nada si las empresas de IA no lo respetan. Y tenemos razones para pensar que no lo hacen. Por ejemplo, una reciente investigación de Wired sobre Perplexity puso al descubierto que el motor de búsqueda de IA básicamente ignora el robots.txt

El entrenamiento de IA debería pasar por dar consentimiento

La única manera viable, legal y justa de tratar con el consentimiento de entrenamiento de IA es a través de un sistema de «OPT IN».

Cómo DEBERÍA funcionar esto es que debería haber un sistema abierto para que las empresas de IA ofrezcan una compensación a los editores a cambio del consentimiento para entrenar.

Y eso es lo que el blog de Google del año pasado daba a entender que Google también quería para la web abierta.

Pero en lugar de un «debate público», Google se limitó a llegar a un acuerdo secreto con Reddit, dándole el control y la compensación (y, al parecer, una tonelada de visibilidad extra en las SERPs).

Mientras tanto, Google dejó al resto de editores web en la estacada. Bueno, al menos a los pequeños editores. Tal vez Google también está cortando tratos de favor de trastienda similares otras grandes editoriales? El tiempo lo dirá.

Pero una cosa es segura: desde hace más de un año, las pequeñas editoriales han sido completamente excluidas de la conversación por Google

A pesar de invertir todo lo que tiene en IA durante los últimos 18 meses, Google no ha encontrado el tiempo o los recursos para tener realmente una conversación pública significativa con los pequeños editores sobre el consentimiento, el control y la compensación de la IA.

Resumiendo

Lo que hace que uno se pregunte si esa entrada del blog de hace un año era en realidad una farsa para mantenernos a todos distraídos mientras Google negociaba con Reddit y se preparaba para eliminar a los pequeños editores de las SERPs para dar paso a sus resúmenes de IA en los resultados de búsqueda.

¿Quieres saber más sobre la inteligencia artificial generativa? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación en el blog de Google: «A principled approach to evolving choice and control for web content» y la recapitulación de Nate Hake (abogado en recuperación convertido en creador de viajes) en Twitter/X.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.