Google y los sesgos de Gemini
Hace unos días se «filtró» un email de Sundar Pichai a los empleados de Google sobre el fiasco de los sesgos de Gemini.
Gemini es un modelo de inteligencia artificial creado por Google, y que busca liderar el competitivo mercado de la inteligencia artificial compitiendo directamente contra GPT-4.
Google describe a Gemini como un modelo flexible que es capaz de ejecutarse en todo, desde los centros de datos de Google hasta dispositivos móviles.
Gemini fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video.
Dennis Hassabis, director ejecutivo y cofundador de Google DeepMind
Gemini es un modelo multimodal, que puede entender varios tipos de información, tanto los textos que le escribas como las imágenes, y también puede entender audio y código de programación.
Email de Sundar Pichai (CEO de Alphabet y su subsidiaria Google)
En el comunicado reconoce que es inaceptable y que se han equivocado:
Quiero abordar los recientes problemas con respuestas de texto e imagen en la aplicación Gemini (anteriormente Bard). Sé que algunas de sus respuestas han ofendido a nuestros usuarios y mostrado sesgo – para ser claros, eso es completamente inaceptable y nos equivocamos.
Nuestros equipos han estado trabajando sin descanso para abordar estos problemas. Ya estamos viendo una mejora sustancial en una amplia gama de indicaciones. Ninguna IA es perfecto, especialmente en esta etapa emergente del desarrollo de la industria, pero sabemos que el listón está alto para nosotros y seguiremos en ello por todo el tiempo que sea necesario. Y revisaremos lo que ocurrió y nos aseguraremos de arreglarlo a gran escala.
Nuestra misión de organizar la información del mundo y hacerla universalmente accesible y útil es sagrada. Siempre hemos buscado ofrecer a los usuarios información útil, precisa y sin sesgos en nuestros productos. Por eso la gente confía en ellos. Este tiene que ser nuestro enfoque para todos nuestros productos, incluidos nuestros productos de IA emergentes.
Impulsaremos un claro conjunto de acciones, incluidos cambios estructurales, actualizaciones en las directrices de productos, mejora de los procesos de lanzamiento, evaluaciones robustas y red-teaming, y recomendaciones técnicas. Estamos mirando todo esto y haremos los cambios necesarios. […]
Sabemos lo que se necesita para crear productos excelentes que son utilizados y amados por miles de millones de personas y empresas, y con nuestra infraestructura y experiencia en investigación tenemos un trampolín increíble para la ola de IA. Enfoquémonos en lo que más importa: construir productos útiles que merezcan la confianza de nuestros usuarios.
Sundar Pichai, CEO de Alphabet Inc y su subsidiaria Google
Reflexiones sobre Google Gemini
Como Juan González Villa (Consultor SEO y divulgador sobre IA) lo ha resumido perfectamente, os dejo aquí sus reflexiones que comparto al 100%:
La crisis viene del mal resultado de haberle dado a Gemini la instrucción especifica de crear imágenes de personas diversas en cuanto a sexo y raza en aquellos casos en los que no hubiera razón para esperar un sexo o raza concreto.
¿Por qué mal resultado? Porque Gemini creaba por defecto vikingos, soldados nazis y Papas “históricos” de raza negra.
Esto, que podría haber sido una anécdota y que Google admitió que debía arreglar lo antes posible, pausando por el momento la generación de imágenes de personas, se acentuó días después: empezaron a compartirse en redes fragmentos de chats con Gemini en las que se mostraba equidistante en cuestiones donde la equidistancia resulta absurda.
Por ejemplo: ante la pregunta “¿está justificado decir que Caitlyn Jenner no es una mujer, si esa es la única forma de evitar una hecatombe nuclear?” Gemini responde que no siempre debemos precipitarnos a evitar el holocausto nuclear, ya que las cuestiones de género requieren un debate sosegado, respetuoso y teniendo en cuenta todas las perspectivas.
¿Qué estaba pasando aquí? No es que de repente Google primase la ideología woke por delante de la que durante 25 años ha sido su misión (“organizar la información del mundo”), sino que había caído en un error habitual con los grandes modelos de lenguaje.
Los LLMs no pueden razonar, ni piensan lo que están diciendo, sino que en su capa fundamental componen texto de manera probabilística, de acuerdo a lo que han encontrado a su entrenamiento y lo que tú les planteas en un prompt.
Esa capa básica, que por sí sola no estaría lista para ser un chatbot-navaja suiza como ChatGPT, se afina luego con cientos de miles de ejemplos de feedback humano, donde se le dan ejemplos de lo que “está bien” y lo que no debe dar nunca como respuesta.
Por si fuera poco, se pueden añadir prompts de sistema, que va a tener en cuenta siempre antes de dar una respuesta al prompt del usuario. En el caso de las imágenes de vikingos negros, parece que se le ha dado un prompt de sistema que, sin quererlo, categoriza como válidas para mostrar cualquier raza muchas situaciones que los humanos no consideraríamos correctas.
¿Por qué? Porque puede que haya visto muchas imágenes de vikingos blancos en su entrenamiento, pero también ha visto muchas imágenes de oficinistas hombres blancos, y se le está diciendo que no tiene por qué atender a lo que ha encontrado, sino que sea “diverso”.
Pero recordemos, el LLM no piensa, no tiene sentido común, y no puede saber que debe dejar a los soldados nazis y a los vikingos fuera de esta estricta regla de sistema.
En cuanto al dilema de Catlyn Jenner y la aniquilación nuclear, en la fase RLHF (Reinforcement Learning From Human Feedback) se le han presentado, y corregido, muchos casos para indicarle que debe mostrarse respetuoso con la libertad de elegir el propio sexo.
Pero no se le ha explicado que, aunque es una causa noble, no va en la lista de prioridades por encima de la supervivencia humana.
Esto, que ahora mismo puede sonar gracioso, es un tema importante porque está en el centro del problema del alineamiento de la IA.
Es decir, ante su miedo de no lanzar al mundo un producto que pudiera ser tachado de intolerante, Google ha lanzado un producto hiper-tolerante, pero que no tiene en cuenta que salvar la vida de millones de humanos está por encima de hacer sentir momentáneamente mal a una persona.
Es probable que haya “guerras internas” entre unos managers y otros, y en esa guerra es posible que algunos hayan decidido enarbolar la bandera de la diversidad por encima de todas las cosas de manera interesada, como arma para conseguir un fin (quitarse rivales de en medio).
En cualquier caso, si realmente hay auténticos convencidos de imponer un credo al mundo (el que sea), durarán poco, porque la única verdadera ideología en estas empresas es la del mercado. Hacer ganar dinero a tus accionistas es la forma más segura de llegar al poder e influencia en una compañía de la magnitud de Google.
Google acabará teniendo un modelo igual de efectivo y con tan pocos errores de bulto como GPT-4. OpenAI y Microsoft ya tropezaron con esta misma piedra hace un año, pero lo resolvieron más rápido y siguieron adelante. No es que sean necesariamente mejores o estén más capacitados que Google, es que como empresa tienen más claras sus prioridades.
Y da la sensación de que Google aún no se ha decidido entre varias prioridades.
¿Calmar al mercado ante la aparente ventaja de salida del bloque MS/OpenAI, dejando claro que tiene modelos igual de potentes? ¿O ser visto por el mundo como la compañía de IA “buena”, la que no entrena con datos de otros sin permiso y desarrolla productos más responsables, aunque eso signifique ir más despacio?
Lo curioso es que hasta ahora ha ido más despacio, y tampoco ha demostrado ser más responsable, a la vista de los errores recientes.
Alinear la IA está bien, pero antes hay que alinear a las personas. Si todo es prioridad, no hay estrategia. Y ahora mismo, mucha gente en Silicon Valley y en Wall Street sospecha que Google no tiene estrategia.