PL

LLM Domain Adaptation

A systematic journey to master domain-specific LLM adaptation & distillation

4
阶段
38
总周数
180
总任务数
51%
总进度

阶段路线图

Phase 1: Deep Dive

CPT + DPO/GRPO + Knowledge Distillation + Synthetic Data

深钻 阶段进度23/51 tasks (45%)
9

CPT 理论

Don't Stop Pretraining, HuatuoGPT-II, BloombergGPT, 灾难性遗忘

10

CPT 实战准备

医疗语料构建, 数据清洗 pipeline, 混合比例实验设计

11

CPT 实验(上)

Qwen2.5-3B base model, 纯医疗语料 CPT, loss + perplexity 监控

12

CPT 实验(下)+ 灾难性遗忘量化

数据混合 ablation, 遗忘率测量, CPT vs 无 CPT 对比

13

DPO + GRPO 理论 + 数学推导

DPO/IPO/KTO/GRPO 论文精读, DPO loss 手推, 失败模式对比

14

DPO + GRPO 实战准备

偏好数据集构建, TRL DPOTrainer/GRPOTrainer 源码, 实验矩阵设计

15

DPO 实验(上)

CPT+SFT 模型上跑 DPO 3 个 beta, 监控 reward margin

16

DPO 实验(下)+ 对比 + 失败模式

完整对比评估, 搞坏实验, DPO failure mode 分析

17

GRPO 实战(主攻深度方向)

TRL GRPOTrainer, reward function 设计, reward hacking 深度分析

18

Distillation 理论

DistilBERT, Self-Instruct, Zephyr 7B, 三种蒸馏方法对比

19

Response Distillation 实战

GPT-4o 生成 5000 条医疗 Q&A, 蒸馏数据 vs 真实数据 vs 混合

20

Feature Distillation + On-Policy(主攻深度方向)

Feature-level 对齐, On-policy 蒸馏, 三种策略完整对比

21

合成数据生成 + 数据质量评估

Self-Instruct, Evol-Instruct, 合成数据替代实验