DeepSeek-R1是一款基于大规模强化学习的推理模型,在数学、代码和推理任务上表现优异。

DeepSeek-R1模型概述

DeepSeek-R1 是由深度求索公司开发的第一代推理模型系列,包括 DeepSeek-R1-Zero 和 DeepSeek-R1 两个主要模型。

DeepSeek-R1-Zero模型是通过大规模强化学习(RL)训练,无需预先进行监督微调(SFT),展现出强大的推理能力,并自然涌现出多种推理行为,例如自我验证、反思和生成长链推理(CoT)。这是第一个公开的研究,验证了大型语言模型(LLM)的推理能力可以通过纯 RL 激励,无需 SFT,为该领域未来的发展铺平道路。

DeepSeek-R1为解决 DeepSeek-R1-Zero 存在的无限重复、可读性差和语言混杂等问题,DeepSeek-R1 在 RL 之前引入了冷启动数据。 DeepSeek-R1 在数学、代码和推理任务上的表现可与 OpenAI-o1 相媲美。

为了支持研究社区,深度求索公司开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及六个基于 Llama 和 Qwen 的 DeepSeek-R1 蒸馏模型。 DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中超越了 OpenAI-o1-mini,为稠密模型树立了新的技术水平。

DeepSeek-R1模型训练

DeepSeek-R1 的训练流程包含以下关键步骤:

基于基础模型的大规模强化学习: 直接在基础模型上应用强化学习,无需预先进行监督微调,使模型能够探索使用长链推理(CoT)来解决复杂问题。

两阶段强化学习: 分别用于发现改进的推理模式和与人类偏好保持一致。

两阶段监督微调: 作为模型推理和非推理能力的种子。

DeepSeek-R1模型蒸馏

大型模型的推理模式可以被蒸馏到小型模型中,从而获得比小型模型通过 RL 发现的推理模式更好的性能。

使用 DeepSeek-R1 生成的推理数据微调研究社区广泛使用的几种稠密模型,评估结果表明蒸馏的小型稠密模型在基准测试中表现出色。

深度求索公司向社区开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 蒸馏模型 checkpoints。

DeepSeek-R1模型评估

DeepSeek-R1 系列模型在多个基准测试中表现出色,包括:

英文: MMLU、MMLU-Redux、MMLU-Pro、DROP、IF-Eval、GPQA-Diamond、SimpleQA、FRAMES、AlpacaEval2.0、ArenaHard

代码: LiveCodeBench、Codeforces、SWE Verified、Aider-Polyglot

数学: AIME 2024、MATH-500、CNMO 2024

中文: CLUEWSC、C-Eval、C-SimpleQA

评估结果表明DeepSeek-R1 在多个任务上优于其他模型,包括 GPT-4o、Claude-3.5-Sonnet-1022 和 OpenAI-o1。 蒸馏模型也表现出色,DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越 OpenAI-o1-mini。

DeepSeek-R1如何使用

可以通过以下方式使用 DeepSeek-R1:

聊天网站: 在深度求索官方网站 chat.deepseek.com 上与 DeepSeek-R1 聊天,并开启 “DeepThink” 功能。

API 平台: 在 DeepSeek 平台 platform.deepseek.com 上使用 OpenAI 兼容的 API。

本地运行: DeepSeek-R1 模型可以参考 DeepSeek-V3 仓库的信息进行本地运行。DeepSeek-R1-Distill 模型可以使用与 Qwen 或 Llama 模型相同的方式使用,例如使用 vLLM 或 SGLang 启动服务。

https://github.com/deepseek-ai/DeepSeek-R1
地址:https://huggingface.co/deepseek-ai/DeepSeek-R1