从“算得多”到“算得巧”,RedundancyLens:重塑多模态大模型的效率边界
论文简介该论文由合合信息团队参与完成聚焦多模态大模型推理阶段的效率优化问题。研究发现在主流的 decoder-only 架构中视觉 Token 在多层处理过程中存在明显的结构性冗余这使模型在高分辨率输入和长序列场景下面临较大的算力压力。为此研究团队提出了RedundancyLens可在推理阶段动态识别并削减视觉 Token 的冗余计算在无需额外训练的前提下显著降低计算开销同时保持模型性能提升为多模态模型的高效部署提供了新的工程思路。合合信息是一家中国领先的人工智能产品公司长期关注多模态大模型与文本智能技术在实际场景中的应用相关能力已在多个 C 端与 B 端业务中落地。在这项工作中体现了其对模型效率优化和实际部署问题的持续关注。研究背景与现有不足多模态大语言模型MLLM在计算机视觉和自然语言处理交叉领域快速发展但其架构设计面临性能与效率的关键权衡。当前主流架构包括decoder-only 架构和交叉注意力架构decoder-only 架构如LLaVA将图像token与文本token拼接由LLM统一处理自注意力和FFN操作占计算主导视觉token数量多导致效率低下交叉注意力架构如Flamingo通过交叉注意力层集成视觉信息跳过LLM对视觉token的处理效率高但整体性能较低。现有工作如NVLM比较显示decoder-only 架构性能更优但处理高分辨率图像时计算开销大限制实际应用。视觉token压缩方法如FastV通过减少token数量加速但剩余 token 仍然需要较高的计算开销而本文从减少每个视觉token计算的角度出发填补了研究空白。核心问题在于是否在视觉token处理中存在冗余如何无训练地分析和利用这种冗余这为探索高效MLLM架构提供了动机。创新点一Probe-Activated Dynamic FFNProbe-Activated Dynamic FFN 旨在减少视觉token在前馈网络中的计算通过动态选择FFN参数子集实现免训练加速。其原理受MoE启发但无需训练路由器而是通过探针采样策略激活参数从视觉token中随机采样一小部分子集计算隐藏表示并取绝对值均值选择top-K个激活值对应的参数索引仅激活这些参数处理所有视觉token。具体实现中采样子集用于估计隐藏表示的激活模式从而确定哪些FFN参数对当前输入最重要避免了全参数计算。与已有工作如MoE相比该方法无需额外训练直接在推理时应用降低了部署成本同时它仅针对视觉token文本token保持原样确保了语言能力的完整性。优点包括计算量大幅减少、兼容现有MLLM变体如带门控机制的FFN但可能因采样不确定性引入波动通过设置采样比例和激活参数数来平衡效率与准确性。创新点二Hollow AttentionHollow Attention 是一种自定义稀疏注意力模式旨在减少视觉token在自注意力中的计算同时保留视觉与文本token间的注意力关系。其原理基于稀疏注意力将视觉token间的全局注意力替换为局部注意力每个视觉token仅关注前R_A个视觉token和所有文本token而文本token仍可关注所有token从而显著降低注意力开销因为视觉token通常远多于文本token。动机在于视觉token序列长全局注意力计算复杂度高而局部注意力能捕捉空间相关性减少冗余交互同时保持视觉-文本注意力确保多模态信息融合不受影响。与标准自注意力相比Hollow Attention 减少了视觉token间的长距离依赖但实验表明这对性能影响小说明视觉token处理中存在冗余。实现中注意力范围R_A设为256对应单子图像token数平衡了局部性与计算效率。优点包括计算复杂度降低、易于集成到现有MLLM但可能损失部分全局视觉上下文通过实验验证了在大多数任务中性能保持。下图2(b)展示了注意力模式的变化直观比较了全局与局部注意力突显了计算缩减的机制。创新点三Layer Ranking AlgorithmLayer Ranking Algorithm 用于确定哪些层最适合应用计算缩减通过排序层优先级以最大化冗余利用而不损害性能。原理基于贪心搜索算法构建紧凑验证集逐步评估每个层应用缩减后的模型性能选择性能下降最小的层进行排序形成层排名列表当需缩减特定层数时选择排名最高的层。动机在于不同层对视觉token处理的冗余程度不同全层组合评估计算不可行因此需高效排序策略。算法细节包括惩罚机制如果缩减后性能下降差异乘以惩罚系数α1鼓励优先选择性能稳定的层实验中发现后几层冗余更高因此采用混合策略后L_p层预分配高排名剩余层通过搜索排序减少评估次数。与随机或位置策略相比该算法更准确地识别冗余层但依赖验证集质量可能因小样本引入偏差。优点包括免训练、可适配不同MLLM但计算成本较高需数百次评估未来可优化搜索效率或探索其他特征。实验与结果分析实验在多个主流MLLM上进行包括InternVL2-8B、Qwen2-VL-7B等评估八个基准测试如OCRBench、DocVQA等。冗余分析结果显示在约50%层中应用缩减模型性能保持甚至提升如图3所示性能曲线在缩减层比例增加时先稳定后下降FFN缩减比注意力缩减下降更陡。对比视觉token与全token缩减图4显示仅缩减视觉token性能稳定而缩减全部token包括文本导致性能急剧下降证实冗余特定于视觉token。与其他免训练加速方法比较如表1RedundancyLens在FLOPs减少约30%时性能达到或优于FastV和VTW且在OCRBench等文本丰富场景表现更佳因Token压缩上限低。正交性验证结合FastVFLOPs减少约50%时性能显著超过单用FastV表明token数量缩减与token计算缩减互补。消融研究图6显示激活参数比例或注意力范围增加时可缩减更多层而不影响性能平衡效率与效果图7比较层排序策略混合策略优于纯位置或搜索策略。这些结果证实了视觉token处理中的结构化冗余为MLLM架构优化提供了实证基础。产品应用在企业应用层面该方法为多模态模型的大规模落地提供了更现实的路径。在 ToB 侧如企业级文档扫描与识别、合同与票据 OCR、表单信息抽取、智能审核与质检系统等场景中模型往往需要在高并发、有限算力或本地化部署条件下稳定运行。通过在推理阶段动态减少每个视觉信息的计算量系统可以在保持高准确率的同时显著降低算力与能耗成本从而提升整体服务效率。在 ToC 侧该方法同样适用于手机端拍照识别、即时翻译、智能搜索、辅助阅读等应用使模型在移动设备或实时交互场景中运行得更快、更省电、响应更流畅。整体而言这一技术让多模态能力不再局限于高算力环境而是真正具备了在不同产品形态和终端条件下广泛应用的可行性。总结与展望本文通过RedundancyLens框架系统分析了解码器-仅MLLM中视觉token处理的冗余揭示了结构化和聚类化的冗余模式为高效架构设计提供了新见解。核心贡献包括提出免训练的分析方法、证明冗余存在性并引入正交于现有token压缩的加速视角实验验证了性能保持与效率提升。局限性在于层排序算法依赖验证集和贪心搜索可能未找到最优层组合且计算成本较高未来工作可优化算法、探索更鲁棒的特征或结合其他加速技术。总体而言该研究推动了MLLM在性能与效率平衡方面的进展鼓励从token和计算双维度考虑模型优化具有实际应用潜力。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】