En que se diferencia DeepSeek-R1 de otros LLMs

DeepSeek ha sacudido el mundo de la IA (y del mercado de valores) fundamentalmente porque es “gratis” para uso personal y entre 10 y 30 veces más barato para usos comerciales (por medio de APIs). La pregunta es: ¿cómo es esto posible?

Según el informe de DeepSeek, la principal razón seria que se utilizaron GPUs H800, más básicas y económicas que las avanzadas y poderosas H100 (prohibidas en China por el bloqueo) que se utilizan en el entrenamiento de modelos tradicionales (ChatGPT, Claude, etc). Como consecuencia, el costo de entrenamiento fue de 5,5 millones de dólares, esto es, 20 veces menos que los modelos tradicionales.

La siguiente pregunta es: ¿tiene que ver su arquitectura (diseño), con estos ahorros? La respuesta es si.

Principales diferencias de la Arquitectura de DeepSeek-R1

  • Uso mas eficiente de los MoE (Mixture of Experts): DeepSeek usa muchos menos expertos por token. Esto hace más rápido y eficiente en costo computacional tanto el entrenamiento como a la inferencia (construcción de la respuesta a un prompt nuestro)
    • Las arquitecturas MoE dividen el procesamiento entre múltiples “expertos” especializados (subredes neuronales) activando solo algunos de ellos en cada inferencia en lugar de usar todos los parámetros del modelo simultáneamente. Cada uno de estos modelos expertos, son más pequeños y por ende más fáciles de entrenar. También, el proceso de inferencia es más rápida y menos costosa. Si bien la arquitectura MoE no es exclusiva de DeepSeek el modo en que DeepSeek lo implementa hace la diferencia. DeepSeek utiliza muchos menos expertos por token.
  • Menos dependencia del aprendizaje supervisado: DeepSeek-R1 se basa mucho más en aprendizaje por refuerzo (RL). Esto implica un menor costo de etiquetado de datos.
    • En en aprendizaje por refuerzo (RL) el modelo aprende de sus propios medios, sin supervisión. En lugar de aprender de ejemplos etiquetados, aprende a través de prueba y error, recibiendo recompensas o penalizaciones según sus acciones. Con el tiempo, el modelo se hace cada vez mejor. Esto hace que este tipo de entrenamiento suela ser más lento. Sin embargo, DeepSeek usa RL de manera estratégica, combinándolo con otras técnicas para evitar entrenamientos innecesariamente largos y costosos. Métodos como Self-Play RL, Experience Replay y Model-Based RL permiten que el modelo aprenda de forma más rápida y eficiente sin repetir millones de veces cada experiencia desde cero. Este tipo de entrenamiento es útil en problemas complejos sin soluciones claras.
    • En el aprendizaje supervisado (SL) se necesita millones de ejemplos etiquetados, lo que genera altos costos en recolección de datos, etiquetado manual por humanos (caro y lento) y uso de GPUs/TPUs más potentes para procesar grandes volúmenes de datos.

Diferencias Técnicas entre DeepSeek y ChatGPT

DeepSeek-R1, particularmente su versión Zero, prescinde del ajuste supervisado inicial (SFT), confiando exclusivamente en aprendizaje por refuerzo para desarrollar sus habilidades de razonamiento. Este enfoque le permite descubrir estrategias autónomas, como auto-verificación y reflexión iterativa.

ChatGPT, en contraste, combina SFT con RLHF (Reinforcement Learning from Human Feedback). Inicialmente, se entrena con datos etiquetados y luego se optimiza según las preferencias humanas, priorizando respuestas alineadas con el usuario.

Durante su entrenamiento basado en RL, DeepSeek-R1 desarrolla estrategias que no han sido explícitamente programadas, tales como:

  • Reflexión crítica, revisando y ajustando pasos previos si detecta posibles errores.
  • Pensamiento prolongado, con cadenas de razonamiento detalladas que pueden extenderse por cientos de tokens.

Destilado eficiente a modelos más pequeños

  • DeepSeek-R1 ha demostrado ser capaz de transferir sus capacidades de razonamiento a versiones reducidas. Su configuración base es de 761B parámetros, pero ha logrado que modelos de apenas 7B parámetros superen a competidores hasta 10 veces más grandes en tareas específicas.
  • ChatGPT, en cambio, mantiene un enfoque centralizado en modelos de escala masiva (GPT-4 utiliza ~1.7T parámetros), sin una estrategia optimizada de destilación para modelos más pequeños especializados en STEM (ciencias, tecnología , ingeniería y matemáticas).

Conclusiones de estas diferencias

Mientras ChatGPT se destaca como un modelo generalista optimizado para interacciones humanas, DeepSeek-R1 es un especialista en razonamiento lógico-estructurado. Esto hace a DeepSeek-R1 más eficiente abordando problemas de alto rigor lógico en disciplinas como matemáticas, programación y ciencias exactas. ChatGPT, en cambio, optimiza la coherencia conversacional y la alineación con preferencias humanas, lo que lo hace más flexible, pero menos riguroso en problemas técnicos complejos.