完全开源的语言模型学习记录--Lora-Pre低秩优化器

张

张建站

2026/4/24 11:54:48

10分钟阅读

文章目录一、一段话总结二、思维导图三、详细总结1. 研究背景与动机2. 核心理论突破3. LoRA-Pre方法设计3.1 低秩动量压缩3.2 优化器适配4. 实验结果4.1 预训练效果C4数据集困惑度越低越好4.2 微调效果MetaMathQA平均分越高越好4.3 秩效率5. 核心贡献四、关键问题与答案问题1LoRA-Pre相比传统低秩优化方法如GaLore的核心优势是什么问题2LoRA-Pre如何解决二阶动量压缩的符号问题问题3LoRA-Pre在预训练与微调场景的适用范围与效果差异https://arxiv.org/pdf/2602.24283v1https://github.com/mrflogs/LoRA-PreTaming Momentum: Rethinking Optimizer States Through Low-Rank Approximation一、一段话总结本文提出LoRA-Pre一种面向大模型预训练与微调的低秩优化器通过证明动量EMA更新等价于在线线性回归将动量矩阵分解为低秩矩阵乘积以压缩优化器状态大幅降低内存开销该方法适配Adam与Muon优化器在60M–1B参数Llama模型预训练中取得最优困惑度微调阶段较标准LoRA在Llama3.1-8B提升3.14分、Llama-2-7B提升6.17分秩效率达基线的8–16倍。二、思维导图## **核心创新** - 理论EMA动量 ≡ 在线线性回归 - 方法低秩分解压缩动量 - 适配Adam / Muon优化器 ## **方法细节** - 一阶动量m m_B·m_A - 二阶动量v(v_B·v_A)°² - 更新规则牛顿法闭式解 - 超参耦合(1-γ₁)²β₁ ## **实验验证** - 预训练60M/130M/350M/1B Llama - 微调Llama-2-7B/3.1-8B数学任务 - 秩效率1/8~1/16秩匹配基线 ## **效果优势** - 预训练困惑度显著降低 - 微调精度大幅领先 - 内存复杂度p×q→(pq)×r - 兼容多优化器、多模型规模三、详细总结1. 研究背景与动机大语言模型预训练/微调的核心瓶颈是优化器状态内存开销Adam/Muon需存储一阶、二阶动量内存占用达模型权重3倍。现有低秩优化方法依赖周期性子空间更新易出现误差累积与优化中断预训练场景适配性差。2. 核心理论突破建立动量EMA更新与在线线性回归的数学等价性动量更新公式可转化为最小化损失min ⁡ m L ( m ; g ) 1 2 ∥ m − g ∥ F 2 \min_{m} L(m;g)\frac{1}{2}\|m-g\|_F^2minmL(m;g)21∥m−g∥F2证明EMA本质是用梯度流训练线性回归器为低秩压缩提供理论基础3. LoRA-Pre方法设计3.1 低秩动量压缩一阶动量将全秩矩阵m ∈ R p × q m∈\mathbb{R}^{p×q}m∈Rp×q分解为m B ∈ R p × r m_B∈\mathbb{R}^{p×r}mB∈Rp×r与m A ∈ R r × q m_A∈\mathbb{R}^{r×q}mA∈Rr×qr ≪ m i n ( p , q ) r≪min(p,q)r≪min(p,q)二阶动量采用v ( v B ⋅ v A ) ∘ 2 v(v_B·v_A)^{\circ 2}v(vB⋅vA)∘2重参数化保证元素恒正内存复杂度从p × q p×qp×q降至( p q ) × r (pq)×r(pq)×r实现大幅节省3.2 优化器适配推出LoRA-Pre Adam与LoRA-Pre Muon两种变体基于牛顿法推导闭式更新规则无需反向传播计算高效超参耦合( 1 − γ 1 ) 2 β 1 (1-\gamma_1)^2\beta_1(1−γ1)2β1、( 1 − γ 2 ) 4 β 2 (1-\gamma_2)^4\beta_2(1−γ2)4β2无需额外调参4. 实验结果4.1 预训练效果C4数据集困惑度越低越好模型规模60M130M350M1BLoRA-Pre Adam32.5723.7816.3613.53LoRA-Pre Muon30.7623.0516.9713.92最优基线31.1924.5117.2214.314.2 微调效果MetaMathQA平均分越高越好模型LoRA-Pre提升幅度Llama3.1-8B3.14分Llama-2-7B6.17分4.3 秩效率60M模型rank16匹配GaLore rank128秩效率8倍130M模型rank16匹配GaLore rank256秩效率16倍5. 核心贡献建立EMA动量与在线线性回归的全新理论关联提出LoRA-Pre低秩优化器支持预训练微调全流程实验验证内存高效、性能领先、秩效率与兼容性优异四、关键问题与答案问题1LoRA-Pre相比传统低秩优化方法如GaLore的核心优势是什么答案核心优势是动态连续子空间更新GaLore等依赖周期性SVD子空间更新易产生误差累积LoRA-Pre每步直接更新低秩因子无延迟、无中断同时秩效率更高仅需1/8–1/16秩即可达到基线性能。问题2LoRA-Pre如何解决二阶动量压缩的符号问题答案对二阶动量采用重参数化策略将v vv表示为v ( v B ⋅ v A ) ∘ 2 v(v_B·v_A)^{\circ 2}v(vB⋅vA)∘2哈达玛积平方确保所有元素为正满足Adam优化器中v \sqrt{v}v的计算要求同时保留低秩结构。问题3LoRA-Pre在预训练与微调场景的适用范围与效果差异答案预训练适配60M–1B参数Llama模型在C4数据集上困惑度全面超越Adam、Muon、GaLore等基线大模型优势更明显微调适配Llama-2-7B、Llama3.1-8B数学任务精度显著优于LoRA、DoRA、GaLore同秩下效果领先。

单机也能玩联机：Nucleus Co-Op如何让你用一台电脑享受多人游戏乐趣

单机也能玩联机：Nucleus Co-Op如何让你用一台电脑享受多人游戏乐趣【免费下载链接】nucleuscoop Starts multiple instances of a game for split-screen multiplayer gaming! 项目地址: https://gitcode.com/gh_mirrors/nu/nucleuscoop 还在为朋友聚会时设…...

2026/4/24 11:53:36 阅读更多 →

3分钟掌握PinWin：让重要窗口永远置顶的终极解决方案

3分钟掌握PinWin：让重要窗口永远置顶的终极解决方案【免费下载链接】PinWin Pin any window to be always on top of the screen 项目地址: https://gitcode.com/gh_mirrors/pin/PinWin 你是否曾在多任务处理时，因为频繁切换窗口而打断思路&…...

2026/4/24 11:53:23 阅读更多 →

告别Arduino引脚焦虑：用PCA9685+IIC轻松驱动16路舵机（附STM32代码避坑）

告别Arduino引脚焦虑：用PCA9685IIC轻松驱动16路舵机（附STM32代码避坑） 在机器人开发或机械臂控制项目中，最令人头疼的莫过于主控芯片的I/O资源捉襟见肘。当你的设计需要同时控制十几个舵机时，传统的Arduino或STM32方案…...

2026/4/24 11:51:24 阅读更多 →

前端三剑客 vs Vue.js：核心区别解析

好的，这是一个关于前端技术的常见问题。我们来理清 HTML CSS JavaScript（通常称为“前端三剑客”）与 Vue.js（一个流行的 JavaScript 框架）之间的区别：核心概念不同HTML CSS JavaScript： 这是…...

2026/4/20 15:14:20 阅读更多 →

【SAP Basis】从SU01出发：深入解析SAP用户账号管理的核心配置与实战

1. SU01入门：SAP用户管理的核心入口第一次接触SAP Basis管理时，我被满屏的事务码搞得晕头转向。直到导师指着SU01说："这是你未来每天都要打交道的老朋友"，我才意识到用户管理的重要性。SU01就像SAP系统的门禁控制台&am…...

2026/4/23 4:18:42 阅读更多 →

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

第一章：AI代码配额管理的范式跃迁与大会使命 2026奇点智能技术大会(https://ml-summit.org) 传统资源配额模型正面临根本性挑战：当大语言模型驱动的代码生成器每秒产出数百行可执行逻辑，静态CPU/内存阈值已无法表征真实开发意图与语义负载。…...

2026/4/20 13:56:02 阅读更多 →

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式【免费下载链接】7z 7-Zip Official Chinese Simplified Repository (Homepage and 7z Extra package) 项目地址: https://gitcode.com/gh_mirrors/7z1/7z 你是否曾为电脑空间不足而烦恼&…...

2026/4/23 2:47:31 阅读更多 →