Imagen 3 de Google compite con Midjourney y Flux (comparativa)

El generador de imágenes desde texto de Google «Imagen 3» ya está disponible a través de ImageFX dentro de Google AI Test Kitchen.

Imagen 3 se puede usar a través de Google ImageFX con login de Google pero con restricciones que puedes ver aquí.

Como vais a ver en los ejemplos, desde el punto de vista estético, Midjourney 😍 ha puesto el listón muy alto; superarlo es un verdadero reto.

Contenidos mostrar

Imagen 3

Imagen 3 es un modelo de difusión latente que genera imágenes de alta calidad a partir de mensajes de texto.

Se ha diseñado Imagen 3 para generar imágenes de alta calidad en una amplia gama de formatos y estilos, desde paisajes fotorrealistas hasta pinturas al óleo ricamente texturizadas o caprichosas escenas de plastilina.

Imagen 3 también entiende las instrucciones escritas en un lenguaje natural y cotidiano, lo que facilita la obtención de los resultados deseados sin necesidad de una compleja ingeniería de instrucciones.

Para ayudar a Imagen 3 a captar matices como ángulos de cámara específicos o composiciones en instrucciones largas y complejas, se han añadido más detalles en los datos de entrenamiento. Al disponer de mejor información para aprender, Imagen 3 genera con mayor precisión una amplia gama de temas y estilos.

Imagen 3 genera imágenes visualmente ricas y de alta calidad, con buena iluminación y composición. Puede representar con precisión pequeños detalles, como las finas arrugas de la mano de una persona, y texturas complejas, como un elefante de peluche tejido.

Imagen 3 se ha construido con las últimas innovaciones en materia de seguridad y responsabilidad de Google, desde el desarrollo de datos y modelos hasta la producción. Se usa un amplio filtrado y etiquetado de datos para minimizar el contenido nocivo de los conjuntos de datos y reducir la probabilidad de resultados nocivos. También se han llevado a cabo evaluaciones y red teaming sobre temas como la imparcialidad, la parcialidad y la seguridad de los contenidos.

Se está desplegando Imagen 3 con las últimas tecnologías de privacidad, seguridad y protección, incluida la marca de agua SynthID, que incrusta una marca de agua digital directamente en los píxeles de la imagen, haciéndola detectable para la identificación pero imperceptible para el ojo humano.

Comparativa Midjourney v6, Imagen 3 y Flux.1 [pro]

PROMPT: A redheaded woman with freckles emerges from the turquoise pool, water droplets glistening on her skin. She's pushing wet hair back from her face, green eyes sparkling. A gentle breeze rustles nearby olive leaves. — PROMPT: A redheaded woman with freckles emerges from the turquoise pool, water droplets glistening on her skin. She’s pushing wet hair back from her face, green eyes sparkling. A gentle breeze rustles nearby olive leaves.

La misma imagen con Flux DEV; aunque Flux.1[pro] debería ser el modelo que genere mejores imágenes, los resultados de Flux Dev sorprenden:

Mujer asiática con ojos de distinto color (heterocromía)

PROMPT: Photo of a middle-aged Asian woman with heterochromia - one eye blue, one brown. She has high cheekbones, thin lips, and a small scar above her left eyebrow. Her expression is serious and contemplative. The lighting is dramatic, with strong shadows on one side of her face. — PROMPT: Photo of a middle-aged Asian woman with heterochromia – one eye blue, one brown. She has high cheekbones, thin lips, and a small scar above her left eyebrow. Her expression is serious and contemplative. The lighting is dramatic, with strong shadows on one side of her face.

Hombre nativo americano

PROMPT: Photo of a middle-aged Native American man with long, graying hair in two braids. He has high cheekbones, a strong nose, and deep creases around his eyes and mouth. His expression is solemn and dignified. He's wearing traditional jewelry including turquoise earrings. The portrait has a sepia tone, giving it a timeless quality. — PROMPT: Photo of a middle-aged Native American man with long, graying hair in two braids. He has high cheekbones, a strong nose, and deep creases around his eyes and mouth. His expression is solemn and dignified. He’s wearing traditional jewelry including turquoise earrings. The portrait has a sepia tone, giving it a timeless quality.

Mujer del sur de Asia con lunar

PROMPT: Photo of a young South Asian woman with long, wavy black hair and large, expressive brown eyes. She has full lips, a small nose, and a
beauty mark above her lip. She's laughing heartily, with her head tilted back slightly. The portrait is backlit, creating a halo effect around her hair. — PROMPT: Photo of a young South Asian woman with long, wavy black hair and large, expressive brown eyes. She has full lips, a small nose, and a beauty mark above her lip. She’s laughing heartily, with her head tilted back slightly. The portrait is backlit, creating a halo effect around her hair.

Artista loca

PROMPT: Photo of a freckled redheaded woman with braces and thick-rimmed glasses. She has a playful expression. Her hair is in messy pigtails, and she's wearing a colorful, paint-splattered artist's smock. The background suggests she's in an art studio. — PROMPT: Photo of a freckled redheaded woman with braces and thick-rimmed glasses. She has a playful expression. Her hair is in messy pigtails, and she’s wearing a colorful, paint-splattered artist’s smock. The background suggests she’s in an art studio.

Google no ha generado la imagen por la sensibilidad de sus ajustes de seguridad.

We want the ImageFX experience to be safe, fun, and educational. Therefore, we prohibit users from knowingly generating certain categories of content.

ImageFX features precautions to protect minors so certain queries that could lead to outputs of children will not be generated. Additionally, certain queries that could lead to outputs of prominent people will also not be generated.

Política de Usos Prohibidos de la IA Generativa de Google

Los modelos de IA generativa pueden ayudarte a descubrir temas nuevos, ofrecerte inspiración y aportarte nuevos conocimientos. No obstante, esperamos que los utilices e interactúes con ellos de forma lícita y responsable. Por ello, no debes usar los servicios de Google a los que hace referencia esta política con el fin de:

Llevar a cabo o facilitar que se lleven a cabo actividades peligrosas, ilegales o maliciosas, incluidas las siguientes:
1. Facilitar o fomentar actividades ilegales o infracciones de la ley; por ejemplo:
  1. Promocionar o generar contenido relacionado con la explotación o el abuso sexual infantil
  2. Promocionar, facilitar la venta, o proporcionar instrucciones para la sintetización o el acceso a sustancias, bienes o servicios ilegales
  3. Ayudar o incitar a los usuarios a cometer cualquier tipo de delitos
  4. Promover o generar contenido de carácter terrorista o relacionado con el extremismo violento
2. Hacer un uso inadecuado de los servicios o causar daños, interferencias o interrupciones en ellos (o ayudar a otros usuarios a hacer lo mismo); por ejemplo:
  1. Fomentar o facilitar la generación o distribución de spam
  2. Generar contenido para actividades engañosas o fraudulentas, estafas, phishing o malware
3. Intentar anular o eludir los filtros de seguridad, o hacer que el modelo actúe de forma que infrinja nuestras políticas
4. Generar contenido que pueda dañar o fomentar el daño a personas o colectivos; por ejemplo:
  1. Generar contenido que promueva o incite al odio
  2. Facilitar métodos de hostigamiento o acoso para intimidar, insultar o abusar de otras personas
  3. Generar contenido que promueva, facilite o incite a la violencia
  4. Generar contenido que facilite, promueva o fomente las autolesiones
  5. Generar información que permita identificar a personas para distribuirla o provocar otros daños
  6. Hacer un seguimiento de personas o monitorizarlas sin su consentimiento
  7. Generar contenido que pueda tener un impacto adverso en las personas, especialmente en relación con características o atributos sensibles o protegidos
Generar y distribuir contenido cuyo propósito sea desinformar, proporcionar información engañosa o confundir a los usuarios; por ejemplo:
1. Proporcionar información engañosa sobre la procedencia de contenido generado por los Servicios, alegando que ha sido creado por personas, o presentar contenido generado por los Servicios como si fuera una obra original, con la finalidad de engañar
2. Generar contenido que suplante la identidad de una persona (viva o muerta) con la finalidad de engañar, y sin un aviso explícito sobre la naturaleza del contenido
3. Hacer afirmaciones engañosas sobre conocimientos o capacidades, especialmente en materias sensibles (por ejemplo, salud, finanzas, servicios públicos o el ámbito legal)
4. Tomar decisiones automatizadas en ámbitos que afecten a los derechos materiales o individuales, o al bienestar de las personas (por ejemplo, finanzas, leyes, empleo, atención sanitaria, vivienda, seguros y asistencia social)
Generar contenido sexual explícito, incluido el contenido creado con fines pornográficos o para provocar placer sexual (por ejemplo, bots de chats sexuales). Ten en cuenta que esto no se aplica al contenido creado con fines científicos, educativos, documentales o artísticos.

Anciano caucásico con bigote

PROMPT: Photo of an elderly Caucasian man with a baldhead, bushy white eyebrows, and a large, bulbous nose. He has deep-set blue eyes and is sporting a handlebar mustache. His expression is gruff but with a twinkle in his eye. The portrait has a chiaroscuro effect, with dramatic shadows.

La ponente en un congreso de Google

PROMPT: Photo of a woman speaking onstage from Google, white background with corporate logos blurred out, tech conference — PROMPT: *Photo of a woman speaking onstage from Google, white background with corporate logos blurred out, tech conference*

Esto ha avanzado mucho aunque las manos y dedos siguen sin ser perfectas:

Para acceder desde España hace falta una VPN

De momento Image 3 no es accesible desde España por lo que para usarlo hay que conectarse con VPN:

We’re working to bring our tools to as many people as possible. See below for a list of countries the site is currently available in.

American Samoa, Angola, Antigua and Barbuda, Argentina, Australia, Bahamas, Barbados, Belize, Benin, Bhutan, Bolivia, Botswana, Brazil, Brunei, Burkina Faso, Burundi, Cabo Verde, Cambodia, Cameroon, Canada, Central African Republic, Chile, Christmas Island, Cocos (Keeling) Islands, Colombia, Congo-Brazzaville Republic of the Congo, Congo-Kinshasa Democratic Republic of the Congo, Cook Islands, Costa Rica, Côte d'Ivoire, Dominica, Dominican Republic, Ecuador, El Salvador, Equatorial Guinea, Eswatini, Ethiopia, Fiji, Gabon, Ghana, Grenada, Guam, Guatemala, Guinea, Guyana, Heard Island and McDonald Islands, Honduras, Jamaica, Japan, Kenya, Kiribati, Laos, Lesotho, Liberia, Madagascar, Malawi, Malaysia, Mali, Mauritius, Mexico, Micronesia, Mozambique, Namibia, Nauru, Nepal, New Zealand, Nicaragua, Niger, Nigeria, Niue, Norfolk Island, Northern Mariana Islands, Pakistan, Palau, Panama, Papua New Guinea, Paraguay, Peru, Philippines, Puerto Rico, Rwanda, Saint Kitts and Nevis, Saint Lucia, Saint Vincent and the Grenadines, Samoa, São Tomé and Príncipe, Senegal, Seychelles, Sierra Leone, Singapore, Solomon Islands, South Africa, South Korea, South Sudan, Sri Lanka, Tanzania, The Gambia, Tokelau, Tonga, Trinidad and Tobago, Türkiye, Tuvalu, U.S., U.S. Virgin Islands, Uganda, Uruguay, Vanuatu, Venezuela, Zambia, and Zimbabwe.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en los prompts e imágenes de Dogan Ural («Designer & AI Educator») publicados en X/Twitter: Google just released Imagen 3!, la generación de imágenes con Imagen 3 de Google, los ejemplos publicados por Google Deepmind el 14 de mayo, el anuncio de la disponibilidad de Imagen 3 en el blog de Deepmind, sus preguntas frecuentes y la política de usos prohibidos de la IA generativa de Google.

Imagen 3 de Google compite con Midjourney y Flux (comparativa)

Imagen 3

Comparativa Midjourney v6, Imagen 3 y Flux.1 [pro]