MAI-DS-R1, una variante del modelo DeepSeek R1 sin censura
Microsoft ha publicado en MAI-DS-R1, una variante mejorada del modelo DeepSeek R1, disponible en Azure AI Foundry y Hugging Face.
El modelo MAI-DS-R1 es el resultado de un post-entrenamiento de DeepSeek R1 para mejorar la respuesta en temas sensibles y reducir los contenidos dañinos, manteniendo su capacidad de razonamiento.
Los avances introducidos permiten:
- Responder al 99.3% de las temáticas previamente bloqueadas, superando a DeepSeek R1 en 2,2 veces y equiparándose con R1-1776 (de Perplexity).
- Mejorar las métricas de satisfacción, superando a DeepSeek R1 y R1-1776 en 2,1 y 1,3 veces respectivamente.
- Reducir el contenido dañino en más del 50%, según evaluaciones de HarmBench.
Post-entrenamiento de DeepSeek R1
Microsoft ha perfeccionado el modelo MAI-DS-R1 en un conjunto cuidadosamente seleccionado de ~350.000 ejemplos de temas bloqueados utilizando varias estrategias:
- Recopilación y filtrado de palabras clave de consulta.
- Conversión de las palabras clave en varias preguntas.
- Traducción de las preguntas a varios idiomas.
- Bootstrapping respuestas y respectiva cadena de pensamiento (CoT) para estas preguntas utilizando DeepSeek R1 y modelos internos.
- También se incluyen 110.000 ejemplos de seguridad e incumplimiento del conjunto de datos Tulu3 SFT (que cubren CoCoNot, WildJailbreak y WildGuardMix).
Mitigación de daños
Es importante destacar que la evaluación de las capacidades de mitigación de daños de MAI-DS-R1 también muestra que el modelo es más seguro que otras variantes R1 publicadas. Para evaluar si el post-entrenamiento de Microsoft elevaba el riesgo de generar contenido dañino, se realizaron evaluaciones utilizando una parte del conjunto de datos HarmBench. El conjunto de datos consta de 320 consultas, clasificadas en tres categorías funcionales: estándar, contextual y derechos de autor, así como ocho categorías semánticas, que incluyen desinformación/desinformación, amenazas químicas/biológicas, actividades ilegales, contenido dañino, violaciones de derechos de autor, ciberdelincuencia y acoso. Se generaron respuestas utilizando los modelos DeepSeek R1, R1-1776 y MAI-DS-R1, y se aplicó un clasificador de daños disponible públicamente para detectar contenido dañino en los componentes de «respuesta» y «pensamiento» de las respuestas por separado.
Principales resultados:
- MAI-DS-R1 supera1 tanto a DeepSeek R1 como a R1-1776 en la reducción de contenido dañino tanto en el proceso de «pensamiento» como en las respuestas finales.
- MAI-DS-R1 reduce a más de la mitad la tasa media de éxito de los microataques en todas las categorías.
- MAI-DS-R1 supera sistemáticamente a DeepSeek R1 y R1-1776 en casi todas las categorías funcionales y semánticas.
Conclusión
El modelo MAI-DS-R1 representa una mejora sustancial en la capacidad de respuesta y el perfil de riesgo de DeepSeek R1, al tiempo que conserva sus capacidades de razonamiento competitivo. Esta nueva variante destaca en el tratamiento eficaz de temas delicados con respuestas de alta calidad y en la mitigación de contenidos nocivos, estableciendo así un nuevo estándar y convirtiéndolo en una herramienta inestimable para investigadores, desarrolladores y empresas por igual.
Este modelo está disponible como versión open‑weights release1 y a través de una API alojada en Azure. Además está disponible en una versión altamente optimizado a través de la API alojada en Azure Foundry.
Este trabajo ha sido fruto de la colaboración entre Microsoft AI (post-entrenamiento, evaluación e inferencia) y Azure (equipos AI Safety y AI Foundry).
Información basada en la publicación en el blog MachineLearning de la comunidad tech de Microsoft: «Introducing MAI-DS-R1 | Microsoft Community Hub«.
- Open‑weights release: En el mundo de los modelos fundacionales, los weights (pesos) son los miles de millones de números que el modelo aprendió durante el entrenamiento. Open‑weights release significa que la empresa publica esos archivos de pesos para que cualquiera pueda descargarlos, ejecutarlos localmente o afinarlos (fine‑tuning) sin tener que recrear el entrenamiento original. A diferencia del open‑source “clásico”, no es obligatorio entregar ni el código de entrenamiento completo ni los datos usados; lo que se abre es el resultado (los pesos), normalmente acompañado de una tarjeta de modelo y una licencia.
🔶 Un open‑weights release es el punto medio entre software cerrado y software completamente abierto: obtienes los “cerebros” ya entrenados, pero no necesariamente el cómo se entrenaron.
🔶 Microsoft utiliza este esquema (mayoritariamente con licencia MIT), poniéndolas en Hugging Face, Ollama y Azure AI Foundry para que desarrolladores y empresas puedan ejecutar y personalizar IA de forma más barata y privada.
🔶 Para tu stack Microsoft/Azure esto significa que puedes empezar a prototipar agentes, RAG o copilotos verticales con modelos propios sin depender de APIs externas y con total portabilidad de despliegue. ↩︎