Respuestas a las preguntas de OpenAI o1 que todos nos hacemos

Respuestas a las preguntas de OpenAI o1 que todos nos hacemos

El pasado 13 de noviembre, de 19 a 20 horas, la cuenta de Twitter/X organizó un AMA («Ask Me Anything») sobre OpenAI o1. Te lo resumo.

Resumen de lo que hemos aprendido hoy durante la sesión de preguntas y respuestas con el equipo de OpenAI o1. Al final están las preguntas que se han quedado sin respuesta en la sesión.

Nombres de los modelos y paradigma de razonamiento

  • OpenAI o1 representa un nuevo nivel de capacidad de IA y por eso el contador vuelve a 1.
  • «Preview» indica que se trata de una versión preliminar del modelo completo.
  • «Mini» significa que es una versión más pequeña del modelo o1, optimizada para mayor velocidad.
  • o – como OpenAI.
  • o1 no es un «sistema»; es un modelo entrenado para generar largas cadenas de pensamiento antes de devolver una respuesta final.
  • El icono de o1 es metafóricamente un alienígena de habilidad extraordinaria.

Tamaño y rendimiento de los modelos o1

  • o1-mini es mucho más pequeño y rápido que o1-preview, de ahí que se ofrezca a los usuarios gratuitos en el futuro
  • o1-preview es un punto de control temprano del modelo o1, ni más grande ni más pequeño
  • o1-mini rinde mejor en tareas STEM, pero su conocimiento del mundo es limitado
  • o1-mini destaca en algunas tareas, especialmente en las relacionadas con el código, en comparación con o1-preview.
  • Los tokens de entrada para o1 se calculan del mismo modo que para GPT-4o.
  • o1-mini puede explorar más cadenas de pensamiento que o1-preview.
    • A o1-mini se le permite actualmente un máximo de tokens más alto debido a su menor coste, por lo que puede seguir pensando para las preguntas que o1-preview está cortada. Esto no significa que o1-mini utilice necesariamente más tokens para la misma pregunta.

Contexto de entrada y capacidades del modelo

  • Los modelos o1 dispondrán próximamente de contextos de entrada más amplios.
  • En comparación con GPT-4o, los modelos o1 pueden realizar tareas más largas y abiertas con menos necesidad de fragmentar la información de entrada.
  • o1 puede generar largas cadenas de pensamiento antes de dar una respuesta, a diferencia de los modelos anteriores.
  • En la actualidad, no hay forma de pausar la inferencia durante la TdC para añadir más contexto, pero se está estudiando esta posibilidad para futuros modelos.

Herramientas, funcionalidad y próximas funciones

  • o1-preview aún no utiliza herramientas, pero está prevista la compatibilidad con la llamada a funciones, el intérprete de código y la navegación.
  • En futuras actualizaciones se añadirán herramientas, resultados estructurados y avisos del sistema.
  • En futuras versiones, los usuarios podrán controlar el tiempo de reflexión y los límites de tokens.
  • Hay planes en marcha para permitir el streaming y considerar el progreso del razonamiento en la API.
  • Las capacidades multimodales están integradas en o1, con el objetivo de lograr un rendimiento de vanguardia en tareas como MMMU.

Razonamiento CoT (Chain of Thought – cadena de pensamiento)

  • o1 genera cadenas de pensamiento ocultas durante el razonamiento.
  • No está previsto revelar los tokens CoT a los usuarios de la API ni a ChatGPT.
  • Los tokens CoT se resumen, pero no hay garantía de fidelidad al razonamiento real.
  • Las instrucciones de los mensajes pueden influir en la forma en que el modelo piensa sobre un problema.
  • El aprendizaje por refuerzo (Reinforcement learning – RL) se utiliza para mejorar el CoT en o1, y GPT-4o no puede igualar su rendimiento en CoT sólo con prompts.
  • La fase de reflexión parece más lenta porque resume el proceso de pensamiento, aunque la generación de respuestas suele ser más rápida.

API y límites de uso

  • o1-mini tiene un límite semanal de 50 prompts para los usuarios de ChatGPT Plus.
  • Todas las preguntas cuentan lo mismo en ChatGPT
  • Con el tiempo se irán introduciendo más niveles de acceso a la API y límites de tarifa más elevados.
  • El almacenamiento en caché de los avisos en la API es una petición para la cual no hay plazos disponibles.

Precios, ajuste y ampliación

  • Se espera que los precios de los modelos o1 sigan la tendencia de reducción de precios cada 1-2 años.
  • Los precios de la API por lotes serán compatibles una vez que aumenten los límites de las tarifas.
  • El ajuste fino está en la hoja de ruta, pero aún no hay plazos disponibles.
  • La ampliación de o1 se ve obstaculizada por el talento en investigación e ingeniería.
  • Los nuevos paradigmas de escalado para el cálculo de inferencias podrían aportar mejoras significativas en futuras generaciones de modelos.
  • El escalado inverso aún no es significativo, pero los ejercicios de escritura personal muestran que el rendimiento de o1-preview es sólo ligeramente mejor que el de GPT-4o (o incluso ligeramente peor).

Desarrollo del modelo e investigación

  • o1 se entrenó utilizando el aprendizaje por refuerzo para lograr un rendimiento de razonamiento.
  • El modelo demuestra un pensamiento creativo y un gran rendimiento en tareas laterales como la poesía.
  • El razonamiento filosófico y la capacidad de generalización de o1, como el descifrado de claves, son impresionantes.
  • Los investigadores utilizaron o1 para crear un bot de GitHub que envía mensajes a los CODEOWNERS adecuados para su revisión.
  • En pruebas internas, o1 se sometió a sí mismo a problemas difíciles para calibrar sus capacidades.
  • Se está añadiendo un amplio conocimiento del dominio mundial, que mejorará con futuras versiones.
  • Se prevén nuevos datos para o1-mini en futuras iteraciones del modelo (actualmente en octubre de 2023).

Técnicas y prácticas recomendadas

  • o1 se beneficia de los prompts que proporcionan casos extremos o estilos de razonamiento.
  • Los modelos o1 son más receptivos a las pistas de razonamiento en comparación con modelos anteriores.
  • Proporcionar un contexto relevante en la generación aumentada por recuperación (RAG) mejora el rendimiento; los fragmentos irrelevantes pueden empeorar el razonamiento.

Comentarios generales y futuras mejoras

  • Los límites de velocidad son bajos para o1-preview debido a la fase inicial de pruebas, pero se aumentarán.
  • Se está trabajando activamente para mejorar la latencia y los tiempos de inferencia.

Capacidades destacables del modelo

  • Las capacidades de razonamiento creativo de o1, como autoevaluarse para medir sus capacidades, demuestran su alto nivel de resolución de problemas.
  • o1 puede reflexionar sobre cuestiones filosóficas como «¿Qué es la vida?».
  • Los investigadores consideran impresionante la capacidad de o1 para realizar tareas complejas y generalizar a partir de una instrucción limitada.

Preguntas que se quedaron sin respuesta

Preguntas sin respuesta más interesantes de la sesión.

Multimodalidad, visión y características avanzadas

  • ¿Es o1 multimodal tanto para la entrada como para la salida como GPT-4o?
  • ¿Hay algún plazo para generar imágenes usando o1 vía API o acceso ChatGPT para usuarios regulares?
  • ¿Cuándo soportará o1 el modo de voz avanzado y las funcionalidades de búsqueda?
  • ¿Tendrán los modelos de o1 un sistema de memoria a largo plazo que aprenda de las interacciones diarias?
  • ¿Obtendrá o1 artefactos como Claude 3.5 (por ejemplo, previsualización de generaciones en tiempo real)?

Acceso a los modelos, límites de tarifa y disponibilidad

  • ¿Tendrán acceso a o1-mini los usuarios de la API gratuita?
  • ¿Para cuándo está previsto que los límites de uso pasen de semanales a diarios?
  • ¿Hay alguna posibilidad de que se lance el modelo o1-IOI?
  • ¿Cuál es el precio previsto para el acceso a la API de o1?

Razonamiento, formación y CoT

  • ¿Tendrán los usuarios de la API acceso a los resúmenes de los tokens de razonamiento generados en CoT?
  • ¿Se basa o1 en GPT-4o o se construye desde cero como un modelo completamente nuevo?
  • ¿Cuál es la arquitectura actual de o1 en comparación con GPT-4o?

Herramientas para desarrolladores y características de la API

  • ¿Está previsto que los desarrolladores puedan cargar archivos o repositorios para tareas de codificación?
  • ¿Admitirán finalmente los modelos o1 la API de asistentes, el almacén GPT y los GPT personalizados?

Varios, transparencia y políticas

  • ¿Se fusionarán finalmente los modelos o1 con la serie GPT?
  • ¿Está o1 relacionado con «Strawberry» y Q*?
  • ¿Podrá o1 integrar sistemas de razonamiento simbólico como Lean o WolframAlpha?
  • ¿Cuándo proporcionará OpenAI más transparencia sobre el calendario, las versiones de las funciones y la hoja de ruta?
  • ¿Cómo se gestionará el cumplimiento de las políticas, incluidas las cuentas bloqueadas, los incidentes de jailbreak, etc.?
  • ¿Los modelos de o1 serán alguna vez de código abierto, o hay algún plan para lanzar modelos de código abierto (AI)?
  • ¿Sustituirán los modelos o1 a otros modelos internos de OpenAI? En caso afirmativo, ¿para qué casos de uso?

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en la publicación en Twitter/X del equipo de desarrollo de OpenAI: «We’re hosting an AMA for developers from 10–11 AM PT today» y los tweets de Tibor Blaho («Lead Engineer at AIPRM.com and LinkResearchTools.com»), «summary of what we have learned during AMA hour» & «summary of the unanswered questions«.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.