【大模型12步学习路线 · 第10步 · ①原理篇】LLM 微调全景:Full FT / LoRA / QLoRA / DoRA / DPO,从 PEFT 到偏好对齐

张

张建站

2026/5/21 2:16:54

10分钟阅读

【大模型12步学习路线 · 第10步 · ①原理篇】LLM 微调全景:Full FT / LoRA / QLoRA / DoRA / DPO,从 PEFT 到偏好对齐系列定位:「大模型正确学习顺序」12 步系列第 10 步 · 微调的 ①原理篇。前置阅读:第 4 步 RAG + 第 9 步私有化部署 —— Veri-Copilot 已经用 Qwen-Coder + RAG 跑起来。本篇产出:微调 vs RAG vs Prompt 的战略决策 + PEFT 全家桶(LoRA / QLoRA / DoRA / Spectrum)+ LoRA 数学原理 + 超参手册 + DPO/ORPO/GRPO 偏好对齐 + 微调决策树。读完你能从"会调 prompt + 用 RAG" 升级到"会微调适配自己的数据"。🚀 0. 开场:在 RAG 都能跑出 SOTA 的时代,还需要微调吗?回忆第 4 步实战篇的关键结论(DeepV 路线):“纯 RAG + GPT-5 在 VerilogEval 上 +17%,不微调任何模型。”那为什么还要学微调?三个不可替代的理由:🎯领域适配:RAG 解决"知识"问题,但解决不了"风格"问题。比如公司的 SVA 命名规范、内部 IP 协议的非标准变体,这些必须靠微调让模型"刻进基因";💰推理成本:RAG 每次都要把上下文塞进 prompt(几 KB 的检索片段),token 成本高。微调后模型本身就懂,不需要每次塞;🚀延迟与精度:微调好的小模型能在精度上追平 RAG + 大模型,且延迟低、本地友好;🔬学术价值:DATE 2027 论文 ablation 章节里,"+ LoRA fine-tuning"是一组必跑实验。Veri-Copilot 的战略:第一阶段不微调 LLM—— 因为投入产出比低、迭代慢;只微调 retriever(ChipNeMo 路线,性价比之王)。第二阶段(本步)加 LoRA,作为论文 ablation 的"上层武器"。🗺️ 1. 三种适配 LLM 的路线 —— 战略决策指令理解静态知识领域风格 / 推理能力需求需要解决什么?Prompt 工程RAG微调✅ 0 训练成本✅ 即时迭代❌ 长 prompt 贵✅ 知识动态更新✅ 不改模型❌ 每次塞 token✅ 推理便宜✅ 风格 / 能力 hardcode❌ 训练成本❌ 知识陈旧风险1.1 战略决策表需求优先方案“教 LLM 我们的术语”RAG 或 prompt 即可“教 LLM 我们的命名规范 / 风格”微调“教 LLM 一个全新协议”RAG + 微调“压缩推理成本”微调小模型“提升基础能力(代码 / 推理)”微调“动态新知识”RAG“对话风格”微调 + DPO💎金句:“知识用 RAG,能力用微调,风格用 DPO。”🏗️ 2. LLM 微调方法全谱(2026)