GPT-4o mini sustituye a GPT-3.5 en ChatGPT
OpenAI ha lanzado GPT-4o mini, su modelo de IA pequeño más rentable, con el objetivo de hacer que la IA sea más asequible y ampliamente accesible
GPT-4o mini sustituye a GPT-3.5 en ChatGPT para usuarios Free, Plus y Team desde el 18 de julio de 2024, y los usuarios Enterprise tendrán acceso la próxima semana.
- GPT-4o mini admite texto y visión, con planes futuros para incluir texto, imagen, vídeo y entradas y salidas de audio, y tiene una ventana de contexto de 128.000 tokens con conocimientos hasta octubre de 2023.
- Supera a los modelos «pequeños» anteriores en pruebas comparativas de razonamiento, matemáticas y tareas de codificación, y es el primer modelo que aplica el método de jerarquía de instrucciones de OpenAI, lo que mejora su seguridad y fiabilidad.
- GPT-4o mini tiene un precio de 15 céntimos por millón de tokens de entrada y 60 céntimos por millón de tokens de salida, significativamente más barato que los modelos anteriores.
GPT-4o mini ya está disponible en ChatGPT, descrito como «más rápido para las tareas cotidianas», pero tiene un límite de 8.191 tokens frente a los 32.767 de GPT-4o (ChatGPT Plus).
OJO: GPT-4o mini carece actualmente de capacidades de visión en ChatGPT.
Medidas de seguridad integradas
La seguridad está integrada en los modelos de OpenAI desde el principio y se refuerza en cada paso del proceso de desarrollo. En el preentrenamiento, se filtra la información de la que no quieren que sus modelos aprendan, como incitación al odio, contenido para adultos, sitios que recopilan principalmente información personal y spam. En el post-entrenamiento, se alinea el comportamiento del modelo con sus políticas utilizando técnicas como el aprendizaje por refuerzo con retroalimentación humana (RLHF) para mejorar la precisión y fiabilidad de las respuestas de los modelos.
GPT-4o mini lleva incorporadas las mismas mitigaciones de seguridad que GPT-4o, que se estudian cuidadosamente mediante evaluaciones automatizadas y humanas de acuerdo con su Marco de Preparación y en consonancia con sus compromisos voluntarios. Más de 70 expertos externos en campos como la psicología social y la desinformación han probado GPT-4o para identificar posibles riesgos, que se han abordado. Las conclusiones de estas evaluaciones de expertos han ayudado a mejorar la seguridad tanto de GPT-4o como de GPT-4o mini.
Sobre la base de estos conocimientos, los equipos de OpenAI también han trabajado para mejorar la seguridad de GPT-4o mini utilizando nuevas técnicas basadas en su propia investigación. GPT-4o mini en la API es el primer modelo que aplica el método de jerarquía de instrucciones, que ayuda a mejorar la capacidad del modelo para resistir jailbreaks, inyecciones de prompt y extracciones de prompt del sistema. Esto hace que las respuestas del modelo sean más fiables y ayuda a que sea más seguro utilizarlo en aplicaciones a escala.
Método de jerarquía de instrucciones («The Instruction Hierarchy»):
Los LLM actuales son susceptibles de sufrir inyecciones de instrucciones, fugas y otros ataques que permiten a los adversarios sobrescribir las instrucciones originales de un modelo con sus propias instrucciones maliciosas. En este trabajo, sostenemos que una de las principales vulnerabilidades subyacentes a estos ataques es que los LLM suelen considerar que las instrucciones del sistema (por ejemplo, el texto de un desarrollador de aplicaciones) tienen la misma prioridad que el texto de usuarios y terceros no fiables. Para solucionar este problema, proponemos una jerarquía de instrucciones que define explícitamente cómo deben comportarse los modelos cuando entran en conflicto instrucciones de distintas prioridades. A continuación, proponemos un método de generación de datos para demostrar este comportamiento jerárquico de seguimiento de instrucciones, que enseña a los LLM a ignorar selectivamente las instrucciones de menor prioridad. Aplicamos este método a GPT-3.5, demostrando que aumenta drásticamente la robustez -incluso para tipos de ataque no vistos durante el entrenamiento- a la vez que impone degradaciones mínimas en las capacidades estándar.
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions
Información basada la información oficial de OpenAI: «GPT-4o mini: advancing cost-efficient intelligence» y en la publicación de Twitter/X de Tibor Blaho. Paper «The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions» acerca del método de jerarquía de instrucciones.