近日机器学习与人工智能领域国际顶会 ICML 2026 录用结果正式揭晓滴滴共有五篇高质量学术成果被大会收录。本次中稿论文分别来自滴滴L Lab团队、滴滴网约车交易市场技术团队与中山大学、香港科技大学广州、北京大学、上海财经大学等高校联合研发完成。未来滴滴将继续深耕业务场景让前沿探索与产业需求相互激发与学界携手推动更多技术成果落地。国际机器学习大会International Conference on Machine Learning简称 ICML是机器学习领域最具影响力的顶级学术会议之一同时也是中国计算机学会CCF推荐的 A 类国际学术会议。第 43 届 ICML 会议将于 2026 年 7 月 6 日-11 日在韩国首尔举行。本届 ICML 会议共收到 23918 份提交论文其中 6352 篇论文被录用526 篇被选为 Spotlight Paper。中稿论文如下*排名不分先后论文一UltraHorizon: Benchmarking LLM-Agent Capabilities in Ultra Long-Horizon Scenarios作者Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, WenJie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen研究团队滴滴 L-Lab × 中山大学研究方向大模型智能体评估基准 / 长周期Long-Horizon任务推理、规划与工具使用论文下载链接https://arxiv.org/pdf/2509.21766论文介绍现有的自主智能体评估未能涵盖现实世界中那些需要持续推理、记忆管理和工具调用的长周期且部分可观察的复杂任务。为了填补这一空白我们提出了一个全新的跨环境探索基准测试其特点是具有极长的智能体交互轨迹、极高的Token消耗量和频繁的工具调用。广泛的实验表明当前最先进的智能体在这些任务中表现远不如人类且无法通过简单的扩大规模来提升其失败的主要原因在于上下文锁定in-context locking和基础能力的缺失。论文二Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution作者Hongze Mi, Yibo Feng, WenJie Lu, Song Cao, Jinyuan Li, Yanming Li, Xuelin Zhang, Haotian Luo, Songyang Peng, He Cui, Tengfei Tian, Jun Fang, Hua Chai, Naiqiang Tan研究团队滴滴 L-Lab研究方向多模态大模型MLLM智能体 / GUI 自动化 / 自进化记忆系统论文下载链接https://arxiv.org/pdf/2601.22528论文介绍为了克服多模态大语言模型MLLM在复杂GUI自动化中的记忆与上下文限制我们提出了达尔文记忆系统DMS该自进化架构利用效用驱动的“自然选择”机制来动态分解任务并淘汰次优策略。通过将记忆构建为一个不断进化的生态系统DMS在无需任何额外训练的情况下显著提升了MLLM智能体的任务成功率、执行稳定性与效率。论文三HTAC: Hierarchical Task-Aware Composition for Continual Offline Reinforcement Learning作者Qiyang ZhouRuihang XuPeng WangWenjie LuXiaochun CaoNaiqiang TanLi Shen研究团队滴滴 L-Lab × 中山大学研究方向持续离线强化学习Continual Offline RL / 跨任务知识迁移与隔离 / 层次化任务表示论文介绍为了克服持续离线强化学习CORL在任务异质性下的知识复用与隔离难题我们提出了层次化任务感知组合方法HTAC该方法通过双层任务编码与软组合机制将任务解耦为域级与任务级嵌入并借助按需创建的专家网络与注意力式知识整合实现参数高效的知识隔离与复用。在离线持续世界基准上HTAC兼顾了可塑性与稳定性显著提升了智能体的跨任务泛化与知识迁移能力。论文四Agent-Omit: Adaptive Context Omission for Efficient LLM Agents作者Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu研究团队滴滴 L-Lab × 香港科技大学广州研究方向大语言模型智能体论文下载链接https://arxiv.org/pdf/2602.04284v2论文介绍本文提出Agent-Omit框架用于提升大语言模型智能体在多轮交互中的执行效率。现有方法通常对思考过程与环境观察进行统一压缩未考虑不同交互轮次的效用差异。本文通过定量分析证实智能体在交互中间轮次产生的思考与观察信息存在大量冗余可在不降低任务效果的前提下安全省略。Agent-Omit 采用两阶段训练先基于冷启动数据微调让模型掌握省略行为规范再通过省略感知的智能体强化学习结合双采样机制与专属奖励实现自适应省略冗余内容。理论分析表明该省略策略的偏差受 KL 散度上界约束。在五大智能体基准测试中Agent-Omit-8B 性能比肩前沿大模型且显著降低 token 开销实现效果与效率的最优平衡。论文五Feasible Fusion: Constrained Joint Estimation under Structural Non-Overlap结构性重叠缺失下带约束的联合估计范式作者Yuxi Du, Zhiheng Zhang, Haoxuan Li, Cong Fang, Jixing Xu, Zhen Peng, Jiecheng Guo研究团队滴滴网约车交易市场技术 × 北京大学、上海财经大学研究方向因果推断论文下载链接https://arxiv.org/pdf/2602.22612论文介绍现代大规模营销场景中因果推断正面临日益严峻的挑战这些挑战包括高维协变量high-dimensional covariates、多值处理multi-valued、大规模观察性数据以及由于成本约束而数量有限的随机对照试验样本。本文对由处理机制诱发的结构性非重叠进行了形式化刻画并证明在这一情形下常用的加权融合方法在理论上无法满足随机化识别约束。为应对这一问题本文提出了一种受约束的联合估计框架在最小化观察数据风险的同时通过正交的实验矩条件来保证因果有效性。进一步地我们表明结构性非重叠会在原始协变量空间中对矩约束的施加构成一种可行性障碍。在方法上本文推导出一种带惩罚项的原始—对偶算法用于联合学习表征与预测器并将误差分解为重叠恢复误差、矩违背误差以及统计误差三部分。大量合成实验表明该方法在不同程度的非重叠情形下均表现出稳健性能。与此同时在一个滴滴大规模网约车应用场景中的实验进一步显示本文方法相较于现有基线方法取得了显著提升其效果可与使用显著更多 RCT 数据训练得到的模型相仿。- End -