Flux: Generador de imágnes IA Open Source

Flux es un nuevo generador de imágenes inteligencia artificial de código abierto que parece superar a Midjourney, SD3 y Auraflow.

FLUX.1 es un modelo de texto a imagen de código abierto de última generación con 12.000 millones de parámetros que puedes ejecutar localmente, creado por Black Forest Labs (un equipo de antiguos investigadores de Stability AI que fueron los creadores originales de Stable Diffusion), que ofrece una estética similar a la de Midjourney y está disponible en tres versiones (dev, schnell y pro).

Contenidos mostrar

Black Forest Labs

Black Forest Labs están profundamente arraigados en la comunidad de investigación de IA generativa, su misión es desarrollar y avanzar en modelos de aprendizaje profundo generativo de última generación para medios como imágenes y vídeos, y ampliar los límites de la creatividad, la eficiencia y la diversidad.

En Black Forest Labs creen que la IA generativa será un pilar fundamental de todas las tecnologías futuras. Al poner sus modelos a disposición de una amplia audiencia, queremos hacer llegar sus beneficios a todo el mundo, educar al público y aumentar la confianza en la seguridad de estos modelos. Su equipo se esfuerza por desarrollar la tecnología de mayor calidad y hacerla accesible al mayor número posible de personas. Están decididos a construir el estándar industrial de los medios generativos. El 1 de agosto, como primer paso hacia este objetivo, han lanzado el conjunto de modelos FLUX.1, que amplía las fronteras de la síntesis texto-imagen.

En Black Forest Labs son un equipo de distinguidos investigadores e ingenieros de IA con una destacada trayectoria en el desarrollo de modelos fundacionales de IA generativa en entornos académicos, industriales y de código abierto. Sus innovaciones incluyen la creación de VQGAN y Latent Diffusion, los modelos Stable Diffusion para la generación de imágenes y vídeo (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers) y Adversarial Diffusion Distillation para la síntesis de imágenes ultrarrápida y en tiempo real.

Tres modelos de Flux

Hay 3 niveles del modelo FLUX:

Flux pro
Flux dev
Flux schnell

Sólo Flux Dev y Flux Schnell son open source.

En detalle: Flux Dev, es de código abierto con una licencia no comercial para el desarrollo comunitario; Flux Schnell, es una versión más rápida y destilada que funciona hasta diez veces más rápido, disponible con una licencia Apache 2 y el modelo de gama alta; y Flux Pro. es una versión de código cerrado disponible a través de una API.

Básicamente Schnell es más rápido, y Dev es de mayor calidad.

Tres niveles del modelo Flux: Pro, Dev y Schnell.

En pruebas comparativas los modelos de Flux han establecido nuevos estándares en síntesis de imágenes, superando a modelos como Midjourney v6.0, Dall-E 3 (HD) y SD3 Ultra en calidad visual, seguimiento de indicaciones, variabilidad de tamaño/aspecto, tipografía y diversidad de salida. Los gráficos de Black Forest afirman que sus modelos Pro y Dev son los mejores generadores de imágenes hasta la fecha, y su menos potente Schnell se sitúa entre Midjourney v5 e Ideogram.

Los gráficos de Black Forest afirman que sus modelos Pro y Dev son los mejores generadores de imágenes hasta la fecha, y su menos potente Schnell se sitúa entre Midjourney v5 e Ideogram.

Sin embargo, los usuarios con GPU más pequeñas pueden no tener suerte. Los modelos de código abierto pesan alrededor de 23 GB, lo que significa que probablemente necesitarían casi 24 GB de VRAM para funcionar hasta que se publique una versión cuantificada, si es que llega a publicarse. Pero aun así, parece que los usuarios con GPUS de 6 y 8 GB de VRAM pronto tendrán que despedirse de la emoción de probar nuevos modelos de IA.

¿Cómo probar Flux?

Ejecuta Flux + ComfyUI Localmente con 1 Click

ComfyUI tiene soporte de Flux de 1 clic incorporado y soporta tanto Flux-Dev como Flux-Schnell.

Ya puedes ejecutar Flux, el modelo AI generador de imágenes, con Comfy UI en tu ordenador local (Mac, Linux, Windows) con 1 clic:

Los nuevos usuarios simplemente tienen que instalar ComfyUI
Los que ya son usuarios tienen que actulizar ComfyUI a la última versión.

Los que ya son usuarios tienen que actulizar ComfyUI a la última versión.

Es un modelo que requiere múltiples descargas (que están todas automatizadas por pinokio), y aquí están los tamaños de archivo:

UNET: 23,8 GB
Codificadores de texto: 9.79GB + 4.89GB + 0.24GB

Técnicamente no necesitas los codificadores de texto de 9,79GB y 4,89GB. Pero la versión actual del script descarga ambos, aunque el flujo de trabajo por defecto utiliza el más grande (t5xxl_fp16.safetensors).

Para ahorrar espacio, basta con eliminar el archivo t5xxl_fp8_e4m3fn.safetensors de la carpeta comfyui.git/app/models/clip.

Por otro lado, si tienes una máquina con poca memoria (menos de 32GB RAM), puede que quieras usar el archivo codificador de texto más pequeño (t5xxl_fp8_e4m3fn.safetensors). En este caso, usa un flujo de trabajo que utilice el fp8 y elimina el archivo t5xxl_fp16.safetensors.

Con un ordenador normalito genera una imagen en 2 minutos

Generar una imagen con el prompt «A sign that says ‘Open Source over Closed Source» en FLUX.1 fp8 en un portátil GPU 3070 con 8 GB VRAM y un i9 de doceava generación con 16 GB RAM). Tarda unos 2 minutos.

Comparando Flux con SD3 Medium y Auraflow

Flux tiene muy buena pinta en las pruebas comparativas, pero ¿hasta qué punto son buenas sus creaciones? Lo hemos comparado con los generadores de imágenes de código abierto más destacados disponibles hasta la fecha, y podemos confirmar que nos ha impresionado. Comparemos Flux, SD3 Medium y Auraflow, y luego enfrentémoslo a Midjourney.

Ilustraciones

Prompt Decrypt.co: “Hand-drawn illustration of a giant spider chasing a woman in the jungle, extremely scary, anguish, dark and creepy scenery, horror, hints of analog photography influence, sketch.” — Prompt Decrypt.co: “*Hand-drawn illustration of a giant spider chasing a woman in the jungle, extremely scary, anguish, dark and creepy scenery, horror, hints of analog photography influence, sketch*.”

Flux: Capta mejor el horror, la angustia y la atmósfera espeluznante. Es la creación más precisa, sin defectos morfológicos.
SD3 Medium: Aunque visualmente llama la atención, es la menos alineada con el aspecto de «fotografía analógica» del prompt. Se nota el estilo de terror.
Auraflow: El más cercano al boceto y a la fotografía analógica en su conjunto. Sin embargo, es la menos espeluznante, la que menos miedo da y la que menos transmite la atmósfera general de la escena.

Conciencia espacial

Prompt Decrypt.co: “A dog standing on top of a TV showing the word ‘Decrypt’ on the screen. On the left there is a woman in a business suit holding a coin, on the right there is a robot standing on top of a first aid box. The overall scenery is surreal.”

Flux: Es el más fiel al texto y consigue una calidad surrealista.
SD3 Medium: Capta los elementos principales, pero le faltan algunos detalles.
Auraflow: Interpretación creativa, pero se desvía más del texto original.

Realismo

Prompt Decrypt.co: “A high-resolution photograph of a bustling city street at night, neon signs illuminating the scene, people walking along the sidewalks, cars driving by, a street vendor selling hot dogs, reflections of lights on wet pavement, the overall style is hyper-realistic with attention to detail and lighting, a neon sign says ‘Decrypt.’”

Flux: Detallado y bien iluminado. Capta bien la concurrida calle, las señales son fáciles de leer y los peatones están bien representados.
SD3 Medium: Cumple los requisitos de la solicitud con una composición equilibrada, iluminación realista y elementos bien integrados, incluidos el cartel «Decrypt» y el vendedor ambulante. Sin embargo, los peatones no están representados con tanto realismo como en la generación Flux.
Auraflow: Interpretación creativa con iluminación vibrante, pero se desvía del estilo hiperrealista con sus vendedores ambulantes caricaturescos y los desordenados letreros de neón. Tiene algunos problemas con la perspectiva, lo cual es un problema si el objetivo es el fotorrealismo.

Flux 1 pro versus Midjourney 6

Sorprende mucho que se diga que FLUX es un «Midjourney killer«.

Flux tiene algunos puntos fuertes, como los prompts complejos, los pequeños detalles y la precisión del texto.

Sin embargo, dada la superior estética y capacidad de edición de Midjourney, FLUX no lo superará pronto.

Viendo esto, ¿Midjourney ahora tiene competencia? Si piensas que Midjourney sirve solo para hacer fotos bonitas entonces, tal vez, ahora tiene un competidor.

El precio sorprende porque Midjourney es más barato.

FLUX Pro: Coste por imagen: 0,05
Midjourney: Coste por imagen: 0,01 en modo relax ilimitado en el plan estándar (30 $/mes)

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación «Announcing Black Forest Labs«, «New ComfyUI interface» y ComfyUI Github, Meet Flux: New Open-Source AI Image Generator Beats Midjourney, SD3 and Auraflow y las imágenes de Flux1.Pro comparadas con las de Midjourney 6 de Dogan Ural (Designer, AI Educator).