Respuestas a las preguntas de OpenAI o1 que todos nos hacemos
El pasado 13 de noviembre, de 19 a 20 horas, la cuenta de Twitter/X organizó un AMA («Ask Me Anything») sobre OpenAI o1. Te lo resumo.
Resumen de lo que hemos aprendido hoy durante la sesión de preguntas y respuestas con el equipo de OpenAI o1. Al final están las preguntas que se han quedado sin respuesta en la sesión.
Nombres de los modelos y paradigma de razonamiento
- OpenAI o1 representa un nuevo nivel de capacidad de IA y por eso el contador vuelve a 1.
- «Preview» indica que se trata de una versión preliminar del modelo completo.
- «Mini» significa que es una versión más pequeña del modelo o1, optimizada para mayor velocidad.
- o – como OpenAI.
- o1 no es un «sistema»; es un modelo entrenado para generar largas cadenas de pensamiento antes de devolver una respuesta final.
- El icono de o1 es metafóricamente un alienígena de habilidad extraordinaria.
Tamaño y rendimiento de los modelos o1
- o1-mini es mucho más pequeño y rápido que o1-preview, de ahí que se ofrezca a los usuarios gratuitos en el futuro
- o1-preview es un punto de control temprano del modelo o1, ni más grande ni más pequeño
- o1-mini rinde mejor en tareas STEM, pero su conocimiento del mundo es limitado
- o1-mini destaca en algunas tareas, especialmente en las relacionadas con el código, en comparación con o1-preview.
- Los tokens de entrada para o1 se calculan del mismo modo que para GPT-4o.
- o1-mini puede explorar más cadenas de pensamiento que o1-preview.
- A o1-mini se le permite actualmente un máximo de tokens más alto debido a su menor coste, por lo que puede seguir pensando para las preguntas que o1-preview está cortada. Esto no significa que o1-mini utilice necesariamente más tokens para la misma pregunta.
Contexto de entrada y capacidades del modelo
- Los modelos o1 dispondrán próximamente de contextos de entrada más amplios.
- En comparación con GPT-4o, los modelos o1 pueden realizar tareas más largas y abiertas con menos necesidad de fragmentar la información de entrada.
- o1 puede generar largas cadenas de pensamiento antes de dar una respuesta, a diferencia de los modelos anteriores.
- En la actualidad, no hay forma de pausar la inferencia durante la TdC para añadir más contexto, pero se está estudiando esta posibilidad para futuros modelos.
Herramientas, funcionalidad y próximas funciones
- o1-preview aún no utiliza herramientas, pero está prevista la compatibilidad con la llamada a funciones, el intérprete de código y la navegación.
- En futuras actualizaciones se añadirán herramientas, resultados estructurados y avisos del sistema.
- En futuras versiones, los usuarios podrán controlar el tiempo de reflexión y los límites de tokens.
- Hay planes en marcha para permitir el streaming y considerar el progreso del razonamiento en la API.
- Las capacidades multimodales están integradas en o1, con el objetivo de lograr un rendimiento de vanguardia en tareas como MMMU.
Razonamiento CoT (Chain of Thought – cadena de pensamiento)
- o1 genera cadenas de pensamiento ocultas durante el razonamiento.
- No está previsto revelar los tokens CoT a los usuarios de la API ni a ChatGPT.
- Los tokens CoT se resumen, pero no hay garantía de fidelidad al razonamiento real.
- Las instrucciones de los mensajes pueden influir en la forma en que el modelo piensa sobre un problema.
- El aprendizaje por refuerzo (Reinforcement learning – RL) se utiliza para mejorar el CoT en o1, y GPT-4o no puede igualar su rendimiento en CoT sólo con prompts.
- La fase de reflexión parece más lenta porque resume el proceso de pensamiento, aunque la generación de respuestas suele ser más rápida.
API y límites de uso
- o1-mini tiene un límite semanal de 50 prompts para los usuarios de ChatGPT Plus.
- Todas las preguntas cuentan lo mismo en ChatGPT
- Con el tiempo se irán introduciendo más niveles de acceso a la API y límites de tarifa más elevados.
- El almacenamiento en caché de los avisos en la API es una petición para la cual no hay plazos disponibles.
Precios, ajuste y ampliación
- Se espera que los precios de los modelos o1 sigan la tendencia de reducción de precios cada 1-2 años.
- Los precios de la API por lotes serán compatibles una vez que aumenten los límites de las tarifas.
- El ajuste fino está en la hoja de ruta, pero aún no hay plazos disponibles.
- La ampliación de o1 se ve obstaculizada por el talento en investigación e ingeniería.
- Los nuevos paradigmas de escalado para el cálculo de inferencias podrían aportar mejoras significativas en futuras generaciones de modelos.
- El escalado inverso aún no es significativo, pero los ejercicios de escritura personal muestran que el rendimiento de o1-preview es sólo ligeramente mejor que el de GPT-4o (o incluso ligeramente peor).
Desarrollo del modelo e investigación
- o1 se entrenó utilizando el aprendizaje por refuerzo para lograr un rendimiento de razonamiento.
- El modelo demuestra un pensamiento creativo y un gran rendimiento en tareas laterales como la poesía.
- El razonamiento filosófico y la capacidad de generalización de o1, como el descifrado de claves, son impresionantes.
- Los investigadores utilizaron o1 para crear un bot de GitHub que envía mensajes a los CODEOWNERS adecuados para su revisión.
- En pruebas internas, o1 se sometió a sí mismo a problemas difíciles para calibrar sus capacidades.
- Se está añadiendo un amplio conocimiento del dominio mundial, que mejorará con futuras versiones.
- Se prevén nuevos datos para o1-mini en futuras iteraciones del modelo (actualmente en octubre de 2023).
Técnicas y prácticas recomendadas
- o1 se beneficia de los prompts que proporcionan casos extremos o estilos de razonamiento.
- Los modelos o1 son más receptivos a las pistas de razonamiento en comparación con modelos anteriores.
- Proporcionar un contexto relevante en la generación aumentada por recuperación (RAG) mejora el rendimiento; los fragmentos irrelevantes pueden empeorar el razonamiento.
Comentarios generales y futuras mejoras
- Los límites de velocidad son bajos para o1-preview debido a la fase inicial de pruebas, pero se aumentarán.
- Se está trabajando activamente para mejorar la latencia y los tiempos de inferencia.
Capacidades destacables del modelo
- Las capacidades de razonamiento creativo de o1, como autoevaluarse para medir sus capacidades, demuestran su alto nivel de resolución de problemas.
- o1 puede reflexionar sobre cuestiones filosóficas como «¿Qué es la vida?».
- Los investigadores consideran impresionante la capacidad de o1 para realizar tareas complejas y generalizar a partir de una instrucción limitada.
Preguntas que se quedaron sin respuesta
Preguntas sin respuesta más interesantes de la sesión.
Multimodalidad, visión y características avanzadas
- ¿Es o1 multimodal tanto para la entrada como para la salida como GPT-4o?
- ¿Hay algún plazo para generar imágenes usando o1 vía API o acceso ChatGPT para usuarios regulares?
- ¿Cuándo soportará o1 el modo de voz avanzado y las funcionalidades de búsqueda?
- ¿Tendrán los modelos de o1 un sistema de memoria a largo plazo que aprenda de las interacciones diarias?
- ¿Obtendrá o1 artefactos como Claude 3.5 (por ejemplo, previsualización de generaciones en tiempo real)?
Acceso a los modelos, límites de tarifa y disponibilidad
- ¿Tendrán acceso a o1-mini los usuarios de la API gratuita?
- ¿Para cuándo está previsto que los límites de uso pasen de semanales a diarios?
- ¿Hay alguna posibilidad de que se lance el modelo o1-IOI?
- ¿Cuál es el precio previsto para el acceso a la API de o1?
Razonamiento, formación y CoT
- ¿Tendrán los usuarios de la API acceso a los resúmenes de los tokens de razonamiento generados en CoT?
- ¿Se basa o1 en GPT-4o o se construye desde cero como un modelo completamente nuevo?
- ¿Cuál es la arquitectura actual de o1 en comparación con GPT-4o?
Herramientas para desarrolladores y características de la API
- ¿Está previsto que los desarrolladores puedan cargar archivos o repositorios para tareas de codificación?
- ¿Admitirán finalmente los modelos o1 la API de asistentes, el almacén GPT y los GPT personalizados?
Varios, transparencia y políticas
- ¿Se fusionarán finalmente los modelos o1 con la serie GPT?
- ¿Está o1 relacionado con «Strawberry» y Q*?
- ¿Podrá o1 integrar sistemas de razonamiento simbólico como Lean o WolframAlpha?
- ¿Cuándo proporcionará OpenAI más transparencia sobre el calendario, las versiones de las funciones y la hoja de ruta?
- ¿Cómo se gestionará el cumplimiento de las políticas, incluidas las cuentas bloqueadas, los incidentes de jailbreak, etc.?
- ¿Los modelos de o1 serán alguna vez de código abierto, o hay algún plan para lanzar modelos de código abierto (AI)?
- ¿Sustituirán los modelos o1 a otros modelos internos de OpenAI? En caso afirmativo, ¿para qué casos de uso?
Información basada en la publicación en Twitter/X del equipo de desarrollo de OpenAI: «We’re hosting an AMA for developers from 10–11 AM PT today» y los tweets de Tibor Blaho («Lead Engineer at AIPRM.com and LinkResearchTools.com»), «summary of what we have learned during AMA hour» & «summary of the unanswered questions«.