OpenAI anuncia 'o3' que supera con creces a o1

OpenAI anuncia ‘o3’ que supera con creces a o1

OpenAI acaba de anunciar «o3», un revolucionario modelo de IA que supera con creces a todos los modelos anteriores en las comparativas.

  • En ARC-AGI: o3 más que triplica la puntuación de o1 en cálculo bajo y supera una puntuación del 87%.
  • En EpochAI’s Frontier Math: o3 establece un nuevo récord, resolviendo el 25,2% de los problemas, donde ningún otro modelo supera el 2%.
  • En SWE-Bench Verified: o3 supera a o1 en 22,8 puntos porcentuales
  • En Codeforces: o3 alcanza una puntuación de 2727, superando la puntuación de 2665 del Jefe Científico de OpenAI.
  • En AIME 2024: o3 obtuvo una puntuación del 96,7%, fallando sólo una pregunta.
  • En GPQA Diamond: o3 obtuvo un 87,7%, muy por encima del rendimiento de un experto humano.
Rendimiento de programación:
01: ELO ~1891 en Codeforces
O3: ELO ~2727 🔥Este modelo está redefiniendo lo que es posible en la programación competitiva. 👨‍💻
Rendimiento de programación:
01: ELO ~1891 en Codeforces
O3: ELO ~2727 🔥Este modelo está redefiniendo lo que es posible en la programación competitiva. 👨‍💻
Resultados de matemáticas:
- 01: 83,3% en la AMO
- O3: ¡96,7%! O3 falla sistemáticamente sólo UNA pregunta en el examen de acceso a la Olimpiada Matemática de EE. UU. 🧮
Resultados de matemáticas:
01: 83,3% en la AMO
O3: ¡96,7%! O3 falla sistemáticamente sólo UNA pregunta en el examen de acceso a la Olimpiada Matemática de EE. UU. 🧮
¿Nivel de doctorado en ciencias?
- 01: 78% en GPQ Diamond
- O3: 87,7% Para contextualizar, los doctores expertos tienen una media de ~70%. O3 está redefiniendo los límites del razonamiento técnico. 👩‍🔬👨‍🔬
¿Nivel de doctorado en ciencias?
01: 78% en GPQ Diamond
O3: 87,7% Para contextualizar, los doctores expertos tienen una media de ~70%. O3 está redefiniendo los límites del razonamiento técnico. 👩‍🔬👨‍🔬
¿La prueba matemática más difícil del mundo?
Frontier Math de Epic AI. La mayoría de los modelos: <2% de precisión.
O3: 25% (baja computación)
¿En configuraciones agresivas? 25 veces mejor que la competencia. 🤯
¿La prueba matemática más difícil del mundo?
Frontier Math de Epic AI. La mayoría de los modelos: <2% de precisión.
O3: 25% (baja computación)
¿En configuraciones agresivas? 25 veces mejor que la competencia. 🤯

OpenAI o3

O3 es el modelo más avanzado de OpenAI hasta la fecha que sobresale en tareas de codificación, matemáticas e incluso científicas a nivel de doctorado.

O3 Mini ofrece una increíble optimización coste-rendimiento, perfecta para diversos casos de uso.

O3 también ha logrado un hito en Arc AGI, una exigente prueba de inteligencia general.

  • Cálculo de bajo nivel: 75,7
  • Cálculo de alto nivel: 87,5% (por encima del nivel humano, con un 85%).
Nuevo resultado ARC-AGI-Pub SoTA verificado: OpenAI o3 ha obtenido una puntuación del 75,7% en la evaluación semiprivada de ARC-AGI. Y una configuración o3 de alta computación (no apta para ARC-AGI-Pub) obtuvo un 87,5% en la evaluación semiprivada.
Nuevo resultado ARC-AGI-Pub SoTA verificado: OpenAI o3 ha obtenido una puntuación del 75,7% en la evaluación semiprivada de ARC-AGI. Y una configuración o3 de alta computación (no apta para ARC-AGI-Pub) obtuvo un 87,5% en la evaluación semiprivada.

Este rendimiento en ARC-AGI pone de manifiesto un auténtico avance. No se trata de un progreso incremental. Estamos en territorio nuevo.

¿Es AGI1? o3 sigue fallando en algunas tareas muy fáciles, lo que indica diferencias fundamentales con la inteligencia humana.

¿Cuándo estará disponible o3?

El modelo o3 está en «preview» y sólo está abierto a investigadores que lo soliciten.

Lanzamiento público:

  • O3 Mini: Finales de enero de 2025
  • O3: Poco después.

¿Por qué pasamos de o1 a o3 y no a o2?

Su nombre es o3 debido a problemas de derechos de autor para o2.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en las publicaciones de Rowan Cheung en X/Twitter y ARC PRIZE en X/Twitter.

  1. AGI, o Inteligencia Artificial General, se refiere a un tipo de inteligencia artificial que tiene la capacidad de entender, aprender y aplicar conocimiento en una amplia gama de tareas, de manera similar a cómo lo hace un ser humano. A diferencia de la inteligencia artificial estrecha o específica (Narrow AI), que está diseñada para realizar tareas específicas (como reconocimiento de voz, clasificación de imágenes, etc.). Hasta la fecha, no se ha desarrollado una AGI verdadera; lo que tenemos son avances en inteligencia artificial que abordan aspectos específicos de esta visión, pero todavía falta mucho para alcanzar una inteligencia que rivalice con la humana en todas las áreas. La creación de AGI plantea numerosos desafíos técnicos, éticos, y filosóficos, incluyendo cuestiones sobre control, seguridad, y el impacto en la sociedad. ↩︎

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.