DeepSeek-R1 é a primeira geração de modelos de raciocíno do DeepSeek. Através de uma progressão de modelos não baseados em raciocínio, as engenheiras da DeepSeek projetaram e utilizaram métodos para maximizar a utilização do hardware. Isso inclui Multi-Head Latent Attention (MLA), Mixture of Experts (MoE) gating, treinamento de pontos flutuantes de 8 bits (FP8) e programação PTX de baixo nível. Sua abordagem de co-design de computação de alto desempenho permite que o DeepSeek-R1 rivalize com modelos de última geração a um custo significativamente reduzido para treinamento e inferência.
DeepSeek-R1-Zero é notável por outra inovação: as engenheiras conseguiram extrair capacidades de raciocínio de um modelo não baseado em raciocínio utilizando simples aprendizado por reforço, sem a necessidade de ajuste fino supervisionado. Todos os modelos DeepSeek são open-weight, o que significa que estão disponíveis gratuitamente, embora o código de treinamento e os dados permaneçam proprietários. O repositório inclui seis modelos densos destilados do DeepSeek-R1, baseados no Llama e Qwen, sendo que o DeepSeek-R1-Distill-Qwen-32B supera o OpenAI-o1-mini em vários benchmarks.
