Deepseek原理

deepseek 冷启动数据、推理类与非推理类SFT数据详解 - 知乎

数据类型 核心目标 典型任务 论文支持
冷启动数据 快速建立基础任务能力 少量示例学习(Few-Shot) GPT-3、T5
推理类SFT数据 提升逻辑推理与分步解答能力 数学解题、代码生成 Chain-of-Thought、Codex
非推理类SFT数据 增强生成流畅性与场景适应性 开放域对话、创意写作 DialoGPT、GPT-2/3

监督微调(Supervised Fine-Tuning, SFT)

SFT记忆,RL泛化:基础模型训练后的比较研究 - SegmentFault 思否