发布于 : Apr 02, 2025
Apr 2025
评估
自上次雷达发布以来, 推理模型(Reasoning Models) 的突破和普及是人工智能领域最重要的进展之一。这些模型,也被称为“思考模型”,在诸如前沿数学和编码等基准测试中,它们已达到人类顶级水平的表现。
推理模型通常通过强化学习(RL)或监督式微调(SFT)进行训练,增强了诸如逐步思考(思维链)、探索替代方案(思维树)和自我修正等能力。典型代表包括 OpenAI 的 o1 / o3 、 DeepSeek R1 和 Gemini 2.0 Flash Thinking。然而,这些模型应被视为与通用大型语言模型(LLM)不同的类别,而非简单的高级版本。
这种能力提升伴随着代价。推理模型需要更长的响应时间和更高的 token 消耗,因此我们戏称它们为“更慢的 AI”(如果当前的 AI 还不够慢的话)。并非所有任务都值得采用这类模型。对于文本摘要、内容生成或快速响应聊天机器人等简单任务,通用 LLM 仍然是更好的选择。我们建议在 STEM 领域、复杂问题解决和决策制定中使用推理模型——例如,将 LLM 用作评判者或通过推理模型显式的 CoT 输出来提高最终结果的可解释性。截至撰写本文时,混合推理模型 Claude 3.7 Sonnet 已发布,暗示了传统 LLM 和推理模型之间融合的可能性。