Resumen del AMA de OpenAI en Reddit (31/10/24)

Resumen del AMA («Ask Me Anything«) con Sam Altman, Kevin Weil, Srinivas Narayanan y Mark Chen de OpenAI en Reddit (31 de octubre de 2024).

Contenidos mostrar

GPT-5 y próximos modelos

No hay planes para lanzar un modelo llamado GPT-5 este año, aunque hay lanzamientos importantes que vendrán más adelante
La atención se centra en mejorar la serie o1 y sus sucesoras, en lugar de presentar una GPT-5 en este momento.

GPT frente a la serie de modelos o1

OpenAI seguirá desarrollando las series de modelos GPT y o1.
Se espera que estas dos series acaben fusionándose.
El modelo o1 completo se lanzará pronto y ofrece una notable mejora sobre el actual o1-preview.

Ventanas contextuales más amplias

OpenAI está trabajando en el aumento de la ventana de contexto para ChatGPT Plus y GPT-4o.
La ventana de contexto actual de 32k tokens se considera insuficiente para tareas más largas, en particular para codificar o escribir.
La ampliación de la ventana de contexto es una necesidad reconocida, y los esfuerzos están en curso.

Modelos de imagen y «renderizado» con GPT-4o

Se está trabajando en un nuevo modelo de texto a imagen, aunque no se ha anunciado fecha de lanzamiento.
En los próximos meses, los modelos o1 serán compatibles con la introducción de imágenes, así como con funciones como la multimodalidad y el uso de herramientas.
GPT-4o puede «renderizar» y generar imágenes directamente a partir de texto mediante mensajes HTML, con impresionantes capacidades de imagen a imagen.

SearchGPT, editores y análisis

A OpenAI le gusta la idea de integrar a los editores para que puedan ver cómo se les cita, aunque todavía no hay planes para ello.
SearchGPT suele ser más rápido y eficaz que los motores de búsqueda tradicionales, especialmente para consultas complejas.
Existe la idea de que los motores de búsqueda creen páginas web dinámicas y personalizadas en respuesta a las consultas de los usuarios.

AGI

AGI son las siglas en inglés de Artificial General Intelligence, que en español se traduce como Inteligencia General Artificial. Se refiere a un tipo hipotético de inteligencia artificial que tiene la capacidad de entender, aprender y aplicar conocimientos de manera amplia, similar a la inteligencia humana. A diferencia de las inteligencias artificiales actuales, que están diseñadas para tareas específicas (como reconocer imágenes o procesar lenguaje natural), una AGI tendría la capacidad de realizar cualquier tarea cognitiva que un ser humano pueda hacer. Esto incluye habilidades como razonamiento, planificación, aprendizaje, percepción y uso del lenguaje en contextos diversos. El desarrollo de una AGI plantea numerosos desafíos técnicos y éticos, y es objeto de debate en la comunidad científica sobre su viabilidad y las implicaciones que tendría para la sociedad.

OpenAI cree que la AGI es factible con el hardware actual.
Una vez alcanzada, la AGI podría acelerar los descubrimientos científicos, sobre todo en salud y medicina.
Los avances en arquitectura propuestos por los modelos existentes podrían ayudar a alcanzar la AGI.
OpenAI está explorando modelos de entrenamiento con literatura médica específica para mejorar el rendimiento en el campo
Se está trabajando en el cumplimiento de la HIPAA para su producto empresarial.
- HIPAA es el acrónimo de Health Insurance Portability and Accountability Act (Ley de Portabilidad y Responsabilidad de los Seguros Médicos) promulgada en los Estados Unidos en 1996.

Agentes y perspectivas de futuro para 2025

Se espera que la capacidad de los ChatGPT para realizar tareas de forma independiente sea un tema importante en 2025
Se prevé que los agentes sean el próximo gran avance en la línea de productos GPT.

Modo de voz avanzado (Advanced Voice Mode – AVM) y nuevas funciones

OpenAI está trabajando en la relajación de las restricciones en torno a las capacidades musicales, incluida la posibilidad de que ChatGPT cante.
Se están desarrollando funciones como el modo de voz avanzado con funciones de visión y un modo de cámara, pero no hay fecha para su lanzamiento.
Se ha mejorado la capacidad del modelo para gestionar interrupciones, lo que ha exigido un gran esfuerzo de diseño.

Código abierto y accesibilidad

OpenAI reconoce la importancia de los modelos de código abierto en el ecosistema de la IA y espera que en el futuro haya más modelos de código abierto.
Actualmente se centra en proporcionar API y servicios potentes y seguros para cumplir los requisitos de seguridad.

Contenido NSFW y control del usuario

NSFW es una sigla en inglés que significa «Not Safe For Work«, que se traduce como «No Seguro Para el Trabajo». Se utiliza para etiquetar contenido que puede ser inapropiado para ver en entornos públicos o laborales, como material con temas explícitos, ya sean de naturaleza sexual, violenta o gráfica. Esta etiqueta sirve como advertencia para que las personas sepan que el contenido podría no ser adecuado en ciertas situaciones.

OpenAI piensa que los adultos deben tener el control sobre el contenido NSFW, aunque implementarlo correctamente es complejo.
El control de NSFW no es una prioridad en este momento, ya que otras áreas tienen prioridad.
OpenAI se propone abordar esta cuestión en el futuro, cuando los recursos lo permitan.

Costes de inferencia y precios de la API

Los costes de inferencia se han reducido unas 10 veces en el último año.
Modelos como el GPT-4o-mini cuestan ahora alrededor del 2% del GPT-3 original.
Se espera que la tendencia de reducción de costes continúe, incluso para funciones avanzadas como la voz.

Consejos y casos de uso para los entusiastas de la IA

OpenAI anima a utilizar herramientas de IA a diario para mejorar la productividad y generar ideas.
Ser adaptable y aprender con rapidez se consideran habilidades clave para el futuro.
Los usuarios utilizan ChatGPT para resumir informes médicos y crear GPT personalizados, como apuntes de cursos o recomendaciones de viajes.
Se anima a construir algo interesante y compartirlo con los demás para contribuir al campo de la IA.
OpenAI está abierta a colaboraciones que ayuden a las empresas a adoptar la IA más rápidamente.

Reducción de las alucinaciones y mejora de los modelos

OpenAI se centra en reducir las alucinaciones, aunque se reconoce que es un problema difícil.
Los modelos están mejorando a la hora de citar fuentes fiables, lo que ayuda a reducir la desinformación.
El aprendizaje por refuerzo se utiliza para recompensar la precisión y reducir las alucinaciones.

Mejoras multilingües

OpenAI trabaja para mejorar el rendimiento en idiomas distintos del inglés.
GPT-4o representa un avance significativo en el manejo de varios idiomas en comparación con los modelos anteriores.
La mejora de las capacidades multilingües sigue siendo una prioridad.

Primera acogida de ChatGPT

OpenAI se sorprendió de la buena acogida que tuvieron las primeras versiones de ChatGPT.
El producto inicial tenía muchas limitaciones, como la imprecisión y la falta de funciones, pero aun así contó con una gran base de usuarios.
Los usuarios siguieron valorando el prototipo a pesar de sus imperfecciones.

Normativa de la UE

OpenAI cumplirá las políticas de la UE, al tiempo que espera una normativa cada vez más sensata.
Reconocen la importancia de una Europa fuerte para el mundo.

Jimmy Apples y el emoji de fresa

Sam Altman no es «Jimmy Apples».
Cuando le preguntaron si es el «chico de las fresas», Sam respondió con un emoji de fresa 🍓.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación en Reddit «AMA with OpenAI’s Sam Altman, Kevin Weil, Srinivas Narayanan, and Mark Chen» y el resumen de Tibor Blaho (Lead Engineer at
AIPRM & Link Research Tools) en X/Twitter.

Resumen del AMA de OpenAI en Reddit (31/10/24)

GPT-5 y próximos modelos

GPT frente a la serie de modelos o1

Ventanas contextuales más amplias

Modelos de imagen y «renderizado» con GPT-4o

SearchGPT, editores y análisis

AGI

Agentes y perspectivas de futuro para 2025

Modo de voz avanzado (Advanced Voice Mode – AVM) y nuevas funciones

Código abierto y accesibilidad

Contenido NSFW y control del usuario

Costes de inferencia y precios de la API

Consejos y casos de uso para los entusiastas de la IA

Reducción de las alucinaciones y mejora de los modelos

Mejoras multilingües

Primera acogida de ChatGPT

Normativa de la UE

Jimmy Apples y el emoji de fresa

El culebrón de OpenAI: 5 días de locura

Cómo rastrear la IA generativa en Google Analytics

Crea tu propio Copilot describiéndolo en Copilot Studio

GPT-5 y próximos modelos

GPT frente a la serie de modelos o1

Ventanas contextuales más amplias

Modelos de imagen y «renderizado» con GPT-4o

SearchGPT, editores y análisis

AGI

Agentes y perspectivas de futuro para 2025

Modo de voz avanzado (Advanced Voice Mode – AVM) y nuevas funciones

Código abierto y accesibilidad

Contenido NSFW y control del usuario

Costes de inferencia y precios de la API

Consejos y casos de uso para los entusiastas de la IA

Reducción de las alucinaciones y mejora de los modelos

Mejoras multilingües

Primera acogida de ChatGPT

Normativa de la UE

Jimmy Apples y el emoji de fresa

Publicaciones Similares