发布于 : Apr 02, 2025
Apr 2025
评估
DeepSeek-R1 是 DeepSeek 推出的第一代 推理模型 。在一系列非推理模型的基础上,DeepSeek 的工程师设计并应用了多种方法来最大化硬件使用率。这些方法包括多头潜在注意力(Multi-Head Latent Attention, MLA)、专家混合(Mixture of Experts, MoE)门控、8 位浮点训练(FP8)以及底层 PTX 编程。这些方法结合其 高性能计算协同设计 方法使 DeepSeek-R1 在显著降低训练和推理成本的同时,达到与最先进模型(state-of-the-art)相媲美的表现。
DeepSeek-R1-Zero 另一个显著创新在于: 工程师们可以通过简单的强化学习(RL),无需监督微调(SFT)即可让非推理模型展现出推理能力。此外,所有的 DeepSeek 模型都为开放权重,即它们可以被自由获取,但训练代码和训练数据仍然为专有。该代码库还包括六个从 DeepSeek-R1 蒸馏而来的稠密模型,基于 Llama 和 Qwen 构建,其中的 DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini。