Cómo elegir el tamaño adecuado de modelo de IA: LLM vs SLM
Los modelos lingüísticos pequeños (SLM), como Phi-3 Mini, entrenados con datos de alta calidad tienen limitaciones.
No están diseñados para la recuperación de conocimientos en profundidad, ámbito en el que destacan los grandes modelos lingüísticos gracias a su mayor capacidad y a su entrenamiento con conjuntos de datos mucho más amplios.
Los LLM (large language models) son mejores que los SLM (small language models) en el razonamiento complejo sobre grandes cantidades de información debido a su tamaño y capacidad de procesamiento. Se trata de una función que podría ser relevante para el descubrimiento de fármacos, por ejemplo, al ayudar a escudriñar en vastos almacenes de artículos científicos, analizar patrones complejos y comprender las interacciones entre genes, proteínas o sustancias químicas.
«Todo lo que implique, por ejemplo, la planificación de una tarea lo suficientemente complicada como para tener que dividirla en una serie de subtareas y, a veces, subsubtareas, y luego ejecutarlas todas para obtener una respuesta final… va a seguir en el ámbito de los grandes modelos durante un tiempo»
Luis Vargas, vicepresidente de IA de Microsoft.
Ejemplos de uso de Phi-3
Por ejemplo, una empresa podría utilizar Phi-3 para resumir los puntos principales de un documento extenso o extraer información relevante y tendencias del sector de informes de investigación de mercado.
Otra organización podría utilizar Phi-3 para generar textos, ayudando a crear contenidos para los equipos de marketing o ventas, como descripciones de productos o publicaciones en redes sociales.
O bien, una empresa podría utilizar Phi-3 para impulsar un chatbot de soporte que responda a las preguntas básicas de los clientes sobre su plan o las actualizaciones de servicio.
Combinación de modelos a nivel interno de Microsoft
A nivel interno, Microsoft ya está utilizando conjuntos de modelos, en los que los modelos lingüísticos de gran tamaño desempeñan el papel de enrutador, para dirigir determinadas consultas que requieren menos potencia de cálculo a los modelos lingüísticos pequeños, mientras que se encarga de otras solicitudes más complejas.
Los SLM no van a sustituir a los LLM
«No se trata de que los SLM vayan a sustituir o reemplazar a los grandes modelos lingüísticos. Los SLM están en una posición única para la computación en el borde, la computación en el dispositivo, las computaciones en las que no es necesario ir a la nube para hacer las cosas. Por eso es importante que conozcamos los puntos fuertes y débiles de esta cartera de modelos».
Sonali Yadav, principal responsable de producto de Generative AI en Microsoft.
El tamaño tiene ventajas importantes
Y el tamaño conlleva importantes ventajas. Todavía hay una brecha entre los modelos lingüísticos pequeños y el nivel de inteligencia que se puede obtener de los grandes modelos en la nube.
«Y puede que siempre haya una brecha, porque los grandes modelos van a seguir progresando».
Sebastien Bubeck, Vicepresidente de Investigación en Inteligencia Artificial Generativa de Microsoft
Información basada en la publicación oficial de Microsoft anunciando la disponibilidad del modelo «Tiny but mighty: The Phi-3 small language models with big potential» y «Introducing Phi-3: Redefining what’s possible with SLMs«.