LLM Domain Adaptation

A systematic journey to master domain-specific LLM adaptation & distillation

阶段

总周数

180

总任务数

51%

总进度

阶段路线图

Phase 1: Deep Dive

CPT + DPO/GRPO + Knowledge Distillation + Synthetic Data

深钻阶段进度23/51 tasks (45%)

CPT 理论

Don't Stop Pretraining, HuatuoGPT-II, BloombergGPT, 灾难性遗忘

5/5

CPT 实战准备

医疗语料构建, 数据清洗 pipeline, 混合比例实验设计

3/3

CPT 实验（上）

Qwen2.5-3B base model, 纯医疗语料 CPT, loss + perplexity 监控

3/3

CPT 实验（下）+ 灾难性遗忘量化

数据混合 ablation, 遗忘率测量, CPT vs 无 CPT 对比

2/5

DPO + GRPO 理论 + 数学推导

DPO/IPO/KTO/GRPO 论文精读, DPO loss 手推, 失败模式对比

6/6

DPO + GRPO 实战准备

偏好数据集构建, TRL DPOTrainer/GRPOTrainer 源码, 实验矩阵设计

0/4

DPO 实验（上）

CPT+SFT 模型上跑 DPO 3 个 beta, 监控 reward margin

0/3

DPO 实验（下）+ 对比 + 失败模式

完整对比评估, 搞坏实验, DPO failure mode 分析

0/3

GRPO 实战（主攻深度方向）

TRL GRPOTrainer, reward function 设计, reward hacking 深度分析

0/5

Distillation 理论

DistilBERT, Self-Instruct, Zephyr 7B, 三种蒸馏方法对比

4/4

Response Distillation 实战

GPT-4o 生成 5000 条医疗 Q&A, 蒸馏数据 vs 真实数据 vs 混合

0/3

Feature Distillation + On-Policy（主攻深度方向）

Feature-level 对齐, On-policy 蒸馏, 三种策略完整对比

0/3

合成数据生成 + 数据质量评估

Self-Instruct, Evol-Instruct, 合成数据替代实验

0/4