LLM Domain Adaptation
A systematic journey to master domain-specific LLM adaptation & distillation
4
阶段
38
总周数
180
总任务数
51%
总进度
阶段路线图
Phase 1: Deep Dive
CPT + DPO/GRPO + Knowledge Distillation + Synthetic Data
深钻 阶段进度23/51 tasks (45%)
9
CPT 理论
Don't Stop Pretraining, HuatuoGPT-II, BloombergGPT, 灾难性遗忘
5/5
10
CPT 实战准备
医疗语料构建, 数据清洗 pipeline, 混合比例实验设计
3/3
11
CPT 实验(上)
Qwen2.5-3B base model, 纯医疗语料 CPT, loss + perplexity 监控
3/3
12
CPT 实验(下)+ 灾难性遗忘量化
数据混合 ablation, 遗忘率测量, CPT vs 无 CPT 对比
2/5
13
DPO + GRPO 理论 + 数学推导
DPO/IPO/KTO/GRPO 论文精读, DPO loss 手推, 失败模式对比
6/6
14
DPO + GRPO 实战准备
偏好数据集构建, TRL DPOTrainer/GRPOTrainer 源码, 实验矩阵设计
0/4
15
DPO 实验(上)
CPT+SFT 模型上跑 DPO 3 个 beta, 监控 reward margin
0/3
16
DPO 实验(下)+ 对比 + 失败模式
完整对比评估, 搞坏实验, DPO failure mode 分析
0/3
17
GRPO 实战(主攻深度方向)
TRL GRPOTrainer, reward function 设计, reward hacking 深度分析
0/5
18
Distillation 理论
DistilBERT, Self-Instruct, Zephyr 7B, 三种蒸馏方法对比
4/4
19
Response Distillation 实战
GPT-4o 生成 5000 条医疗 Q&A, 蒸馏数据 vs 真实数据 vs 混合
0/3
20
Feature Distillation + On-Policy(主攻深度方向)
Feature-level 对齐, On-policy 蒸馏, 三种策略完整对比
0/3
21
合成数据生成 + 数据质量评估
Self-Instruct, Evol-Instruct, 合成数据替代实验
0/4