DeepSeek v3: un modelo de código abierto mejor que GPT-4o

DeepSeek v3: un modelo de código abierto mejor que GPT-4o

DeepSeek v3 es incluso superior a Claude Sonnet 3.5 en cuanto a código, según múltiples pruebas comparativas.

DeepSeek

DeepSeek es una división tecnológica de High-Flyer Capital Management, un fondo de cobertura cuantitativo chino. La empresa es conocida por su enfoque en la innovación tecnológica y su compromiso con la accesibilidad y el código abierto. El fundador de DeepSeek, Liang Wenfeng, ha estado detrás de este desarrollo, enfocándose en crear soluciones de IA de alto rendimiento que puedan competir con los modelos de empresas como OpenAI.

DeepSeek-V3

DeepSeek-V3 es un modelo de inteligencia artificial de código abierto desarrollado por la startup china DeepSeek. Este modelo es significativo por su tamaño y rendimiento, contando con 671 mil millones de parámetros totales, de los cuales 37 mil millones se activan por cada token. Utiliza una arquitectura de «mixture-of-experts» (MoE) que permite un manejo eficiente de tareas, destacando en generación de texto, traducción, y otras actividades basadas en texto.

DeepSeek-V3 se ha destacado por superar a otros modelos de código abierto y por ofrecer un rendimiento comparable a modelos de código cerrado como los de OpenAI y Anthropic en varias pruebas de referencia. Además, se ha entrenado con un conjunto de datos masivo de 14,8 billones de tokens, lo que contribuye a su eficacia y capacidad de manejo de tareas complejas.

DeepSeek-V3

  • ⚡ 60 tokens/segundo (¡3 veces más rápido que V2!)
  • 💪 Capacidades mejoradas
  • 🛠 Se mantiene la compatibilidad con la API
  • 🌍 Modelos y documentos100% de código abierto
  • 🧠 671B parámetros MoE
  • 🚀 37B parámetros activados
  • 📚 Entrenado en tokens de alta calidad de 14,8T.
DeepSeek-V3

DeepSeek V3 está cerca de Claude 3.5 Sonnet y gpt-4o

Pero DeepSeek V3 es de código abierto y mucho más barato.

Puntos positivos:

  • excelente en codificación
  • excelente en matemáticas y ciencias
  • gran soporte multilingüe
  • rápido y no perezoso
  • API muy barata
  • licencia Apache 2.0, que permite el trabajo comercial

Puntos negativos:

  • se niega a responder a ciertas preguntas sensibles a China continental o hacer bromas sobre cierto grupo de personas

No es multi-modal

DeepSeek V3 no es un modelo multimodal (como Gemini), aunque la interfaz de chat tiene una entrada de archivo de imagen.

Simplemente intenta un reconocimiento óptico de caracteres (OCR) simple, y luego alimenta ese texto al modelo. No puede describir la imagen y el OCR falla si el texto está en un ángulo difícil o utiliza una fuente caligráfica o escritura a mano. Si le das una imagen que no tiene texto o no es capaz de leerlo, falla por completo.

Por lo tanto, si necesitas una entrada visual y una comprensión real de la imagen, te recomiendo que utilices los últimos modelos de Gemini (Gemini 2.0 Flash Experimental o Gemini Experimental 1206) con Google AI studio. Gemini también admite la entrada de vídeo y audio.

Precio de acceso a la API

  • Hasta el 8 de febrero: igual que la V2
  • A partir del 8 de febrero:
    • Entrada: 0,27 $/millón de tokens (0,07 $/millón de tokens en acceso a caché).
    • Salida: 1,10 $/millón de tokens.

Y aún con la subida de precios a partir del 8 de febrero de 2025, sigue siendo el acceso API más barato del mercado:

DeepSeek es una empresa china: ¿debe preocuparnos?

Evaluar si DeepSeek ser una empresa china conlleva peligros para la seguridad de los datos o la privacidad de los usuarios requiere considerar varios factores:

Seguridad de Datos

  • Censura y Control Gubernamental: Como se ha observado en posts en X, DeepSeek, al ser una empresa china, está sujeta a la supervisión del regulador de Internet de China, lo que incluye la imposición de «valores socialistas fundamentales» en las respuestas de los modelos de IA. Esto sugiere que hay una censura activa de ciertos temas sensibles que podrían limitar la libertad de expresión o manipular la información.
  • Riesgo de Espionaje: Hay preocupaciones expresadas en X sobre la posibilidad de que modelos de IA como DeepSeek puedan ser utilizados como herramientas de espionaje por el gobierno chino. Esto incluye la implementación de backdoors, que son formas encubiertas de acceso a sistemas, que podrían estar presentes en el software para recopilar datos o influir en resultados.

Privacidad

  • Política de Datos: La transparencia respecto a cómo se manejan los datos de los usuarios es crucial. Empresas chinas operan bajo leyes de privacidad que pueden diferir significativamente de las occidentales, como el Reglamento General de Protección de Datos (GDPR) de la Unión Europea o la CCPA en California. No hay información específica de DeepSeek sobre estas políticas, pero es común que empresas chinas deban cumplir con leyes locales que permiten acceso gubernamental a datos de usuarios.
  • Código Abierto vs. Privacidad: Aunque DeepSeek ofrece modelos de código abierto, lo que en teoría permite una revisión comunitaria para encontrar vulnerabilidades, el acceso al código no garantiza automáticamente la seguridad de los datos. Es posible que solo partes del modelo sean abiertas, mientras que otros componentes críticos para la seguridad permanezcan cerrados.

Consideraciones Generales

  • Competencia y Desarrollo: Desde una perspectiva de innovación y competencia en el campo de la IA, DeepSeek representa un avance significativo, mostrando que China es capaz de competir globalmente en tecnologías de vanguardia. Sin embargo, esto viene con el reconocimiento de que las empresas tecnológicas chinas operan bajo un marco regulatorio que puede priorizar los intereses del estado sobre los del individuo.
  • Uso de la Tecnología: La preocupación no solo se centra en la seguridad de los datos sino también en cómo podría ser utilizada esta tecnología. Hay acusaciones de que DeepSeek podría haber sido entrenado con datos de otros modelos, lo que plantea cuestiones éticas sobre la propiedad intelectual y el uso de datos robados.

Conclusión

Mientras que DeepSeek ofrece capacidades impresionantes y contribuye al desarrollo de la IA abierta, la preocupación sobre la seguridad de los datos introducidos es legítima debido a la censura gubernamental y el potencial de espionaje. Los usuarios deben ser conscientes de estos riesgos y considerar cuidadosamente qué tipo de datos comparten con modelos desarrollados por empresas bajo la jurisdicción de gobiernos con políticas de privacidad y control de información que pueden ser más estrictas o diferentes a las esperadas en otros contextos.

Si la seguridad de los datos es una prioridad, usuarios y empresas deben evaluar cuidadosamente las políticas de privacidad de DeepSeek, buscar transparencia sobre cómo se gestionan los datos y considerar el uso de medidas adicionales de seguridad como el cifrado antes de interactuar con cualquier modelo de IA, especialmente aquellos de empresas con fuerte supervisión gubernamental.

¿Quieres saber más sobre las soluciones de inteligencia artificial generativa de Microsoft? En DQS/ te asesoramos. ¿Por qué no nos preguntas cómo podemos ayudarte?

Información basada en el modelo de DeepSeek, el paper de DeepSeek y el chat de DeepSeek.

Publicaciones Similares

¿Te ha parecido interesante? ¿Tienes dudas sobre el contenido?
Para cualquier pregunta ponte en contacto conmigo.