OpenAI & Microsoft

GPT-4o ya está disponible en Azure OpenAI

GPT-4o ya está disponible en Azure OpenAI Service, con soporte para texto e imagen.

Esta semana Microsoft ha anunciado el lanzamiento de GPT-4o, el nuevo modelo insignia de OpenAI en Azure AI. Este innovador modelo multimodal integra capacidades de texto, visión y audio, estableciendo un nuevo estándar para las experiencias de IA generativa y conversacional.

GPT-4o

GPT-4o («o» de «omni») es un paso hacia una interacción mucho más natural entre el ser humano y el ordenador: acepta como entrada cualquier combinación de texto, audio, imagen y vídeo y genera cualquier combinación de salidas de texto, audio e imagen.

Puede responder a entradas de audio en tan sólo 232 milisegundos, con una media de 320 milisegundos, lo que es similar al tiempo de respuesta humana en una conversación.

Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés, siendo además mucho más rápido y un 50% más barato en la API. GPT-4o es especialmente mejor en visión y comprensión de audio en comparación con los modelos existentes.

El predecesor: Modo Voz para hablar con ChatGPT

Antes de GPT-4o, se podía utilizar el Modo Voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) de media. Para lograrlo, el Modo Voz es una canalización de tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma el texto y lo emite, y un tercer modelo simple vuelve a convertir ese texto en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, varios interlocutores o ruidos de fondo, y no puede emitir risas, cantos o expresar emociones.

GPT-4o

Con GPT-4o, OpenAI ha entrenado un único modelo de principio a fin para texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Como GPT-4o es su primer modelo que combina todas estas modalidades, aún están explorando a fondo lo que puede hacer el modelo y sus limitaciones.

Que nos trae el lanzamiento de GPT-4o

Puntos a destacar:

  • Modelos omnicanal 2 veces más rápido de GTP-4.
  • Estará disponible en API yserá un 50% más barato que GPT-4 Turbo y será x5 veces capacidad de velocidad de solicitudes.
  • Permite 0 latencia en conversación con capacidad de interrupción.
  • Puede ver imágenes pero también vídeos y respueta en tiempo real.
  • Más de 50 idiomas para interacción inmediata.
  • Es capaz de percibir emociones.

GPT4 y el acceso a la store de GPT’s será gratis para todos los usuarios (los usuarios de pago tendrán x4 más potencia).

Nuevo ChatGPT aplicación para desktop (de momento solo en MAC porque la de Windows la desarrolla Microsoft).

Un paso adelante en la IA generativa para Azure OpenAI Service

GPT-4o ofrece un cambio en la forma en que los modelos de IA interactúan con entradas multimodales. Al combinar a la perfección texto, imágenes y audio, GPT-4o proporciona una experiencia de usuario más rica y atractiva.

Lo más destacado del lanzamiento

Los clientes de Azure OpenAI Service pueden explorar las amplias capacidades de GPT-4o a través de Azure OpenAI Studio (de momento solo en dos regiones de los EE.UU.). Esta versión inicial se centra en las entradas de texto y visión para proporcionar una visión del potencial del modelo, allanando el camino para otras capacidades como el audio y el vídeo.

Eficacia y rentabilidad

GPT-4o está diseñado para ser rápido y eficaz. Su avanzada capacidad para gestionar consultas complejas con recursos mínimos puede traducirse en ahorro de costes y rendimiento.

Posibles casos de uso que explorar con GPT-4o

GPT-4o abre numerosas posibilidades para empresas de diversos sectores:

  1. Mejora del servicio al cliente: Al integrar diversas entradas de datos, GPT-4o permite interacciones de atención al cliente más dinámicas y completas.
  2. Análisis avanzados: Aproveche la capacidad de GPT-4o para procesar y analizar diferentes tipos de datos con el fin de mejorar la toma de decisiones y descubrir conocimientos más profundos.
  3. Innovación de contenidos: Utilice las capacidades generativas de GPT-4o para crear formatos de contenido atractivos y diversos, que satisfagan una amplia gama de preferencias de los consumidores.

Seguridad y limitaciones del modelo

GPT-4o incorpora seguridad por diseño en todas las modalidades, mediante técnicas como el filtrado de los datos de entrenamiento y el perfeccionamiento del comportamiento del modelo a través del post-entrenamiento. También se han creado nuevos sistemas de seguridad para poner límites a las salidas de voz.

Se ha evaluado la GPT-4o de acuerdo con el marco de preparación de OpenAI y en consonancia con sus compromisos voluntarios. Sus evaluaciones de ciberseguridad, QBRN, persuasión y autonomía del modelo muestran que GPT-4o no supera el nivel de riesgo Medio en ninguna de estas categorías. Esta evaluación consistió en la ejecución de un conjunto de evaluaciones automatizadas y humanas a lo largo de todo el proceso de entrenamiento del modelo. Se probaron las versiones del modelo anteriores y posteriores a la mitigación de la seguridad, con ajustes y prompts personalizados, para determinar mejor las capacidades del modelo.

GPT-4o también se ha sometido a un extenso red teaming externo con más de 70 expertos en ámbitos como la psicología social, la parcialidad y la imparcialidad, y la desinformación para identificar los riesgos que introducen o amplifican las nuevas modalidades añadidas. Se han utilizado estos conocimientos para desarrollar intervenciones de seguridad con el fin de mejorar la seguridad de la interacción con GPT-4o. Se seguirá mitigando los nuevos riesgos a medida que se descubran.

El red teaming en inteligencia artificial es una herramienta valiosa para evaluar la seguridad y la resistencia de los sistemas de IA ante posibles amenazas y ataques.

Hay que reconocer que las modalidades de audio de GPT-4o presentan una variedad de riesgos novedosos. Hoy se han hecho públicas las entradas y salidas de texto e imagen. En las próximas semanas y meses, OpenAI trabajará en la infraestructura técnica, la usabilidad a través de la formación posterior y la seguridad necesarias para publicar las demás modalidades. Por ejemplo, en el momento del lanzamiento, las salidas de audio se limitarán a una selección de voces preestablecidas y se atendrán a sus actuales políticas de seguridad.

Disponibilidad

En los últimos dos años OPenAI ha dedicado muchos esfuerzos a mejorar la eficiencia. Como primer fruto de esta investigación, mucha más gente va a tener acceso a GPT-4o.

Las funciones de texto e imagen de GPT-4o empiezan a desplegarse hoy en ChatGPT. GPT-4o está disponible en el nivel gratuito y para los usuarios Plus con un límite de mensajes hasta 5 veces superior. En las próximas semanas lanzaremos una nueva versión alfa del modo de voz con GPT-4o en ChatGPT Plus.

Los desarrolladores también pueden acceder ahora a GPT-4o en la API como modelo de texto y visión. GPT-4o es 2 veces más rápido, cuesta la mitad y tiene límites de velocidad 5 veces mayores que GPT-4 Turbo.

¿Quieres saber más sobre Microsoft Copilot? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada el anuncio oficial de la disponibilidad de Azure GPT-4o en Azure: «Introducing GPT-4o: OpenAI’s new flagship multimodal model now in preview on Azure«.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.