Janus-Pro-7B: Genera imágenes con DeepSeek (open-source)

Janus-Pro-7B: Genera imágenes con DeepSeek (open-source)

DeepSeek acaba de lanzar otro modelo de IA de código abierto: Janus-Pro-7B que es multimodal y permite crear imágenes.

Es multimodal (puede generar imágenes) y supera a DALL-E 3 y Stable Diffusion de OpenAI en las pruebas GenEval y DPG-Bench.

Es multimodal (puede generar imágenes) y supera a DALL-E 3 y Stable Diffusion de OpenAI en las pruebas GenEval y DPG-Bench.
Janus-Pro comparado con el modelo anterior Janus
Janus-Pro comparado con el modelo anterior Janus

Introducción a Janus-Pro

Janus-Pro es un nuevo marco autorregresivo que unifica la comprensión y la generación multimodales. Aborda las limitaciones de los enfoques anteriores desacoplando la codificación visual en vías separadas, sin dejar de utilizar una arquitectura de transformador única y unificada para el procesamiento. La disociación no sólo alivia el conflicto entre las funciones del codificador visual en la comprensión y la generación, sino que también mejora la flexibilidad del marco. Janus-Pro supera el modelo unificado anterior e iguala o supera el rendimiento de los modelos de tareas específicas. La simplicidad, alta flexibilidad y eficacia de Janus-Pro lo convierten en un firme candidato para la próxima generación de modelos multimodales unificados.

Resumen del modelo

Janus-Pro es un MLLM unificado de comprensión y generación, que desacopla la codificación visual para la comprensión y generación multimodal. Janus-Pro se basa en DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base.

Para la comprensión multimodal, utiliza el SigLIP-L como codificador de visión, que admite la entrada de imágenes de 384 x 384. Para la generación de imágenes, Janus-Pro utiliza el tokenizer de LlamaGen con una tasa de reducción de muestra de 16.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación de Hugging Face Janus Pro 7B, el repositorio de GitHub de Janus, la información de Hugging Face acerca de ViT-L-16-SigLIP-384 y el repositorio de GitHub de LlamaGen.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.