DeepSeek-R1 es la primera generación de modelos de razonamiento de DeepSeek. A través de una progresión de modelos no basados en razonamiento, los ingenieros de DeepSeek diseñaron y utilizaron métodos para maximizar la utilización del hardware. Estos incluyen Multi-Head Latent Attention (MLA), Mixture of Experts (MoE) gating, 8-bit floating points training (FP8) y low-level PTX programming. Su enfoque de co-diseño de computación de alto rendimiento permite a DeepSeek-R1 competir con los modelos de vanguardia a un costo significativamente reducido para el entrenamiento y la inferencia. DeepSeek-R1-Zero destaca también por otra innovación: los ingenieros han podido obtener capacidades de razonamiento a partir de un modelo no basado en razonamiento utilizando un simple aprendizaje por refuerzo, sin necesidad de ajustes finos supervisados. Todos los modelos de DeepSeek son de open-weight, lo que significa que están disponibles gratuitamente, aunque el código de entrenamiento y los datos siguen siendo propietarios. El repositorio incluye seis modelos densos destilados de DeepSeek-R1, basados en Llama y Qwen, con DeepSeek-R1-Distill-Qwen-32B superando a OpenAI-o1-mini en varios puntos de referencia.
