OpenAI o1 es más inteligente que la mayoría de los humanos

OpenAI o1 es más inteligente que la mayoría de los humanos

OpenAI o1 es más inteligente que la mayoría de los humanos, según el test de CI Mensa de Noruega.

Ha obtenido 120 puntos, 20 más que la persona promedio y 30 más que otros modelos de inteligencia artificial de alto nivel como Claude.

Una locura si es cierto.

Tras las pruebas iniciales analizando los coeficientes de inteligencia de los modelos de inteligencia artificial generativa de febrero no ha habido muchos progresos. Hasta ahora. Esta semana todo ha cambiado.

En concreto, o1 acertó 25 de 35 preguntas de CI, muy por encima de lo que consiguen la mayoría de los humanos.

Ejemplo de preguntas del test

Pregunta 35 que acierta siendo la más díficil del test

Esta es la pregunta más difícil del cuestionario, que OpenAI o1 acierta:

La respuesta correcta probablemente no sea obvia para ti. Desde luego, no lo es para mí.

o1 da este razonamiento:

Opción D – Analizando los patrones de la cuadrícula, vemos que cada columna combina ciertos componentes para incluir todos los elementos (V, V al revés, lados del rectángulo) en la tercera fila. En la tercera columna, los componentes Rleft y Rright (los lados del rectángulo) aún no han aparecido. Por lo tanto, la respuesta correcta para la celda vacía es la opción D, que incluye la «v» normal y los dos lados del rectángulo, completando el conjunto de componentes de esa columna.

Así que dice que eligió «D» porque observó un patrón en el que cada columna debería contener todos los elementos posibles. Para que la 3ª columna contenga todos los elementos, necesita que los lados estén en la fila inferior, que están en «D».

Pregunta 24 que acierta

Algo más sencillo:

OpenAI o1 responde correctamente y explica:

En la tercera fila, el patrón consiste en combinar las líneas de las celdas primera y segunda y eliminar las líneas comunes. La primera celda tiene líneas a las 4:30, 6:00, 7:30, 9:00 y 10:30. La segunda celda tiene líneas a las 1:30, 3:00, 6:00, 7:30 y 10:30. Las líneas comunes están a las 6:00, 7:30, 9:00 y 10:30. Las líneas comunes están a las 6:00, 7:30 y 10:30. Combinando las líneas únicas de ambas celdas (1:30, 3:00, 4:30, 9:00) obtenemos la opción F.

Exacto.

Pregunta 21 que falla aunque siga el mismo patrón que la pregunta 24

o1 también se equivoca en algunas preguntas. La siguiente pregunta implica exactamente el mismo patrón que la P24 anterior:

Pero esta vez, o1 sólo consigue ver la parte aditiva del patrón, y se le escapa la parte de «eliminar líneas comunes». Así que se equivoca:

En la cuadrícula, el patrón sugiere que la combinación de las características de las dos primeras celdas de cada fila da como resultado la tercera celda. En la tercera fila, combinando el cuadrado incompleto con líneas verticales y horizontales (tercera fila, primera columna) y el cuadrado completo (tercera fila, segunda columna) se obtiene un cuadrado completo con líneas verticales y horizontales que cruzan el punto medio. Esto coincide con la Opción E.

Siendo la respuesta correcta la B.

La mejora del CI NO se debe a que las preguntas estén en los datos de entrenamiento

La preocupación más común con este tipo de análisis es que quizás algunas IAs puedan estar haciendo trampas porque hayan sido entrenadas con estas mismas preguntas.

Para hacer frente a esta posibilidad, Mensa ha creado un test de CI con nuevas preguntas no publicas que junto con algunas preguntas de Mensa de Noruega confeccionan el test utilizado.

Y los resultados no son tan espectaculares pero también sorprendentes:

Conclusión: el futuro ya está aquí

El nuevo modelo o1 muestra que las proyecciones rápidas sobre el progreso de la IA van por buen camino.

En el análisis inicial del CI de la IA de Maxim Lott, extrapoló la tendencia de mejora de Claude para ver dónde podría acabar el CI de la IA:

primero hay que fijarse en la que hay una progresión consistente y constante:

  • Claude-1 era apenas mejor que el azar. Acertó 6 respuestas, lo que le dio un CI de ~64.
  • Claude-2 obtuvo 6 puntos adicionales por prueba (lo que equivale a ~18 puntos de CI).
  • Claude-3 obtuvo otros 6,5 puntos, por valor de ~19 puntos más de CI, lo que le sitúa por encima de la media humana.

luego en las fechas de lanzamiento:

  • Claude-1 Marzo 2023
  • Claude-2 Julio 2023 (4 meses de producción)
  • Claude-3 Marzo 2024 (8 meses de tiempo de producción)

Una extrapolación muy sencilla sugiere que, por tanto, deberíamos esperar tener Claude-4 en 12-16 meses, y que debería acertar unas 25 preguntas por prueba, para una puntuación de CI de 120. [El o1 de OpenAI, 6 meses después, acertó exactamente 25 de 35 preguntas].

Después de eso, en otros 16 – 32 meses, Claude-5 debería acertar unas 31 preguntas, para unos 140 puntos de CI.

Después de eso, en otros 20 – 64 meses, Claude-6 debería acertar todas las preguntas y ser más inteligente que casi todo el mundo. Es decir, de 4 a 10 años en total, sumando todos los periodos de tiempo.

Por supuesto, ese progreso no está garantizado. Anthropic podría toparse con limitaciones presupuestarias, energéticas, normativas, etc.

Ahora parece que ese calendario se mantiene, y que OpenAI siempre ha ido unos 6 meses por delante de Anthropic/Claude.

Si es así, deberíamos empezar a ver IA que superen los 140 de CI en 2026.

Eso es pronto.

Estos resultados sorprenden bastante tras no ver ningún avance de la IA más allá de los 100 de CI en los últimos 6 meses.

También deja claro que las IA son inteligentes y razonan. Tienen acceso a todo el conocimiento del mundo, pero también son más que eso.

Contrariamente a una corriente de sabiduría convencional, las IA no se limitan a regurgitar palabras sacadas de un algoritmo. Sí, lo hacen, pero predecir la siguiente palabra es tan complejo que la lógica y el razonamiento parecen surgir del proceso de predicción. ¿Tal vez sea ese el mismo proceso del que surgió la inteligencia humana de orden superior? No está claro, pero no hay duda de que ver los albores de la inteligencia de la IA empieza a darnos algunas hipótesis sobre la nuestra.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en las publicaciones de Maxim Lott: «Massive breakthrough in AI intelligence: OpenAI passes IQ 120» y «AIs ranked by IQ; AI passes 100 IQ for first time, with release of Claude-3«.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.