越来越觉得强化学习是未来!CVPR/ICML/ICLR/等8大顶会2026最新RL论文整理
经常关注顶会的朋友都知道最近有个明显的趋势强化学习RL正在破圈。从传统MDP建模、策略优化到如今与大模型、具身智能深度融合从经典场景诸如机器人到成为自动驾驶、智能体系统的核心基础设施……RL这迭代速度比之过去几年那真是突飞猛进。到了今年的顶会赛场我们已经不卷在某个环境里把reward刷高零点几个百分点这种事了真正被关注的是RL的新范式、新理论和新基建。为了帮更多朋友快速跟上这波热潮我系统整理了CVPR、AAAI、ACL、ICML、ICLR、IJCAI、ACM MM、KDD这8大顶会中181篇强化学习论文都来自2026年最新录用。无论你是想快速发一篇顶会还是想在某个细分方向上深挖这些论文都值得你至少过一遍全是可借鉴的idea。扫码添加小享回复“RL合集”免费获取全部论文开源代码【CVPR 2026】MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning研究方法论文提出MSRL 多阶段强化学习方法先在大规模文本偏好数据上做强化学习习得通用奖励推理能力再经基于字幕的强化学习与跨模态知识蒸馏最后用少量多模态数据完成强化学习微调实现生成式多模态奖励模型的可扩展训练。创新点提出多阶段强化学习 MSRL 框架先在海量文本偏好数据上学习通用奖励推理能力再分步迁移到多模态任务突破多模态奖励模型的数据瓶颈。设计基于字幕的强化学习与跨模态知识蒸馏 CMKD 策略有效弥合文本与多模态之间的任务差异和模态鸿沟提升偏好泛化能力。仅需少量多模态偏好数据即可完成模型微调在视觉理解、图像与视频生成任务上均实现显著性能提升且适配不同规模的模型主干。研究价值MSRL通过多阶段强化学习充分利用海量文本偏好数据有效解决了多模态奖励模型依赖昂贵人工标注、难以规模化训练的核心瓶颈在视觉理解、图像与视频生成等任务上实现显著性能提升为多模态大模型的人类偏好对齐提供了低成本、高泛化、易扩展的实用解决方案。扫码添加小享回复“RL合集”免费获取全部论文开源代码【ICLR 2026】MedVR: Annotation-Free Medical Visual Reasoning via Agentic Reinforcement Learning研究方法论文提出MedVR智能体强化学习框架在无需中间步骤人工标注的前提下通过熵引导视觉重定位EVR 驱动不确定性感知探索、基于共识的信用分配CCA 生成自监督信号让医疗视觉语言模型交替文本推理与医学图像缩放工具调用完成端到端强化学习优化。创新点提出 MedVR 智能体强化学习框架实现医疗视觉语言模型的无标注视觉推理无需中间步骤人工标注即可完成端到端训练。设计熵引导视觉重定位EVR机制基于模型预测不确定性动态引导视觉探索精准定位需要细查的医学图像区域。提出基于共识的信用分配CCA方法从成功推理轨迹中蒸馏伪监督信号为工具使用提供细粒度奖励且不依赖人工标注。研究价值MedVR采用无标注智能体强化学习实现医疗视觉推理破解医疗领域细粒度标注成本高、稀缺的难题让模型主动依据医学图像证据推理显著减少幻觉、提升诊断可靠性与泛化能力为安全可解释的临床AI落地提供高效新方案。扫码添加小享回复“RL合集”免费获取全部论文开源代码