Imagen 3 de Google compite con Midjourney y Flux (comparativa)
El generador de imágenes desde texto de Google «Imagen 3» ya está disponible a través de ImageFX dentro de Google AI Test Kitchen.
Imagen 3 se puede usar a través de Google ImageFX con login de Google pero con restricciones que puedes ver aquí.
Como vais a ver en los ejemplos, desde el punto de vista estético, Midjourney 😍 ha puesto el listón muy alto; superarlo es un verdadero reto.
Imagen 3
Imagen 3 es un modelo de difusión latente que genera imágenes de alta calidad a partir de mensajes de texto.
Se ha diseñado Imagen 3 para generar imágenes de alta calidad en una amplia gama de formatos y estilos, desde paisajes fotorrealistas hasta pinturas al óleo ricamente texturizadas o caprichosas escenas de plastilina.
Imagen 3 también entiende las instrucciones escritas en un lenguaje natural y cotidiano, lo que facilita la obtención de los resultados deseados sin necesidad de una compleja ingeniería de instrucciones.
Para ayudar a Imagen 3 a captar matices como ángulos de cámara específicos o composiciones en instrucciones largas y complejas, se han añadido más detalles en los datos de entrenamiento. Al disponer de mejor información para aprender, Imagen 3 genera con mayor precisión una amplia gama de temas y estilos.
Imagen 3 genera imágenes visualmente ricas y de alta calidad, con buena iluminación y composición. Puede representar con precisión pequeños detalles, como las finas arrugas de la mano de una persona, y texturas complejas, como un elefante de peluche tejido.
Imagen 3 se ha construido con las últimas innovaciones en materia de seguridad y responsabilidad de Google, desde el desarrollo de datos y modelos hasta la producción. Se usa un amplio filtrado y etiquetado de datos para minimizar el contenido nocivo de los conjuntos de datos y reducir la probabilidad de resultados nocivos. También se han llevado a cabo evaluaciones y red teaming sobre temas como la imparcialidad, la parcialidad y la seguridad de los contenidos.
Se está desplegando Imagen 3 con las últimas tecnologías de privacidad, seguridad y protección, incluida la marca de agua SynthID, que incrusta una marca de agua digital directamente en los píxeles de la imagen, haciéndola detectable para la identificación pero imperceptible para el ojo humano.
Comparativa Midjourney v6, Imagen 3 y Flux.1 [pro]
La misma imagen con Flux DEV; aunque Flux.1[pro] debería ser el modelo que genere mejores imágenes, los resultados de Flux Dev sorprenden:
Mujer asiática con ojos de distinto color (heterocromía)
Hombre nativo americano
Mujer del sur de Asia con lunar
Artista loca
Google no ha generado la imagen por la sensibilidad de sus ajustes de seguridad.
Política de Usos Prohibidos de la IA Generativa de Google
Los modelos de IA generativa pueden ayudarte a descubrir temas nuevos, ofrecerte inspiración y aportarte nuevos conocimientos. No obstante, esperamos que los utilices e interactúes con ellos de forma lícita y responsable. Por ello, no debes usar los servicios de Google a los que hace referencia esta política con el fin de:
- Llevar a cabo o facilitar que se lleven a cabo actividades peligrosas, ilegales o maliciosas, incluidas las siguientes:
- Facilitar o fomentar actividades ilegales o infracciones de la ley; por ejemplo:
- Promocionar o generar contenido relacionado con la explotación o el abuso sexual infantil
- Promocionar, facilitar la venta, o proporcionar instrucciones para la sintetización o el acceso a sustancias, bienes o servicios ilegales
- Ayudar o incitar a los usuarios a cometer cualquier tipo de delitos
- Promover o generar contenido de carácter terrorista o relacionado con el extremismo violento
- Hacer un uso inadecuado de los servicios o causar daños, interferencias o interrupciones en ellos (o ayudar a otros usuarios a hacer lo mismo); por ejemplo:
- Fomentar o facilitar la generación o distribución de spam
- Generar contenido para actividades engañosas o fraudulentas, estafas, phishing o malware
- Intentar anular o eludir los filtros de seguridad, o hacer que el modelo actúe de forma que infrinja nuestras políticas
- Generar contenido que pueda dañar o fomentar el daño a personas o colectivos; por ejemplo:
- Generar contenido que promueva o incite al odio
- Facilitar métodos de hostigamiento o acoso para intimidar, insultar o abusar de otras personas
- Generar contenido que promueva, facilite o incite a la violencia
- Generar contenido que facilite, promueva o fomente las autolesiones
- Generar información que permita identificar a personas para distribuirla o provocar otros daños
- Hacer un seguimiento de personas o monitorizarlas sin su consentimiento
- Generar contenido que pueda tener un impacto adverso en las personas, especialmente en relación con características o atributos sensibles o protegidos
- Facilitar o fomentar actividades ilegales o infracciones de la ley; por ejemplo:
- Generar y distribuir contenido cuyo propósito sea desinformar, proporcionar información engañosa o confundir a los usuarios; por ejemplo:
- Proporcionar información engañosa sobre la procedencia de contenido generado por los Servicios, alegando que ha sido creado por personas, o presentar contenido generado por los Servicios como si fuera una obra original, con la finalidad de engañar
- Generar contenido que suplante la identidad de una persona (viva o muerta) con la finalidad de engañar, y sin un aviso explícito sobre la naturaleza del contenido
- Hacer afirmaciones engañosas sobre conocimientos o capacidades, especialmente en materias sensibles (por ejemplo, salud, finanzas, servicios públicos o el ámbito legal)
- Tomar decisiones automatizadas en ámbitos que afecten a los derechos materiales o individuales, o al bienestar de las personas (por ejemplo, finanzas, leyes, empleo, atención sanitaria, vivienda, seguros y asistencia social)
- Generar contenido sexual explícito, incluido el contenido creado con fines pornográficos o para provocar placer sexual (por ejemplo, bots de chats sexuales). Ten en cuenta que esto no se aplica al contenido creado con fines científicos, educativos, documentales o artísticos.
Anciano caucásico con bigote
La ponente en un congreso de Google
Esto ha avanzado mucho aunque las manos y dedos siguen sin ser perfectas:
Para acceder desde España hace falta una VPN
De momento Image 3 no es accesible desde España por lo que para usarlo hay que conectarse con VPN:
Información basada en los prompts e imágenes de Dogan Ural («Designer & AI Educator») publicados en X/Twitter: Google just released Imagen 3!, la generación de imágenes con Imagen 3 de Google, los ejemplos publicados por Google Deepmind el 14 de mayo, el anuncio de la disponibilidad de Imagen 3 en el blog de Deepmind, sus preguntas frecuentes y la política de usos prohibidos de la IA generativa de Google.