跳到主要内容

DeepSeek R1 笔记

·1 分钟

对于 LLM 以及对应的 RL,我还是很陌生的。借着这个机会写点笔记学习一下。

Pipeline #

先整理一下 R1 的整个 Pipeline。整个 R1 报告发布了三组模型:1)DeepSeek-R1-Zero;2)DeepSeek-R1;3)DeepSeek-R1-Distill。三者的训练 Pipeline 如下所示:

deepseek-r1 pipeline

其中,用于 R1 本体以及后续蒸馏模型的 “Combined SFT Data” 的构建 Pipeline 如下:

deepseek-r1 data pipeline

一纸枫叶
作者
一纸枫叶
4DV Lab, ShanghaiTech University