「扩散规划落地由此跨过分水岭」目录01 聚焦落地扩散规划量产前夜三大核心瓶颈待破02 生成-判别解耦把RL的麻烦交给判别器1. 框架总览两个模块各司其职2. 扩散生成器保留多模态能力只做擅长的事3. RL判别器把复杂规划变成偏好学习03 三大技术让闭环训练稳下来、跑得快1. TC-GRPO时序一致的相对策略优化解决信用分配2. OGO在线生成器优化只优化关键维度3. BEV-Warp高吞吐仿真解决规模化训练痛点04 实验结果安全与效率双提升落地能力验证充分1. 闭环安全性能碰撞率大幅下降2. 通行效率更像人类驾驶3. 开环轨迹精度误差更低4. 实车部署感知安全与平顺性提升5. 消融实验每个模块都不可或缺05 RAD-2的优势、局限与行业启示1. 核心优势工业界导向的落地友好设计2. 现存局限框架绑定与场景边界3. 行业启示端到端规划的下一步是“稳定优先”06 总结扩散规划在端到端自动驾驶里已经站稳了主流位置它能自然建模多模态轨迹分布适配复杂城市场景里“非唯一最优”的决策特性也能从海量人类驾驶数据里学到贴近真实的行为先验。但从仿真落地到实车部署扩散规划一直被两个老问题卡住纯模仿学习缺少负反馈约束轨迹偶尔出现不安全、不平稳的输出直接把强化学习用在高维连续轨迹上奖励稀疏、信用分配困难优化极易震荡。过去一年行业里的解法大多沿着两条线走要么堆更强的世界模型缩小仿真与现实差距要么用偏好学习替代传统RL降低训练难度。但华科地平线提出的RAD-2没有跟风叠加新模块而是回到架构层面用一套生成-判别解耦框架把“多模态生成”和“闭环RL优化”拆成两个各司其职的模块同时配套一套轻量化闭环仿真与稳定优化策略把扩散规划的碰撞率直接压降56%。这篇工作的核心价值很清晰它没有推翻扩散规划的既有路径而是解决了这条路径上最影响落地的稳定性与安全性短板用工业界务实的设计给出了一套可规模化、可实车部署的闭环训练方案。01聚焦落地扩散规划量产前夜三大核心瓶颈待破在RAD-2出现之前基于扩散的端到端规划已经验证了多模态建模的优势但推向闭环自动驾驶时三个底层缺陷始终没有被很好解决1、纯模仿学习的固有缺陷扩散模型从专家演示里学习轨迹分布但真实驾驶数据存在噪声与分布不均模型会学到低质量轨迹同时纯IL没有负反馈无法抑制不合理行为再加上开环训练与真实闭环驾驶的范式不匹配很容易出现因果混淆学到状态与动作的表面关联而非真实因果逻辑。2、高维轨迹与稀疏奖励的不匹配自动驾驶轨迹是长时序、高维的连续输出而RL奖励是低维标量直接用奖励优化扩散生成器会面临严重的信用分配问题——无法判断轨迹哪一段变化带来了更好的长期结果优化极不稳定甚至出现生成分布崩塌。、3、闭环仿真的效率与保真度矛盾RL训练必须依赖闭环交互仿真但传统游戏引擎仿真器行为简化、真实度不足基于3D高斯的重建仿真器效果好但 pipeline 重、成本高生成式世界模型长时序推演容易漂移都不适合大规模规模化训练。这三个问题叠加让扩散规划在实验室里效果亮眼一到复杂路口、密集车流等安全关键场景就容易出现不可控的输出。而RAD-2的设计就是精准对着这三个痛点开刀。02生成-判别解耦把RL的麻烦交给判别器RAD-2最核心的创新是提出统一的生成-判别闭环规划框架把轨迹生成和质量评估彻底解耦从架构上规避高维空间直接RL优化的风险。图 | 多模态轨迹规划范式对比图1. 框架总览两个模块各司其职整个框架分为两大核心组件扩散生成器负责输出多样化、多模态的连续轨迹候选不直接接触RL奖励只负责“广撒网”覆盖所有可行驾驶行为RL优化判别器只做一件事——根据长期驾驶质量对生成器输出的候选轨迹打分、重排把稀疏标量奖励转化为稳定的排序信号。这种解耦设计的好处很直观扩散生成器保留多模态探索能力判别器承接RL的优化压力用低维打分空间匹配低维奖励从根源提升优化稳定性。两者形成闭环判别器引导生成器向高奖励区域收敛生成器持续提供更优质的候选集互相推动整体策略升级。2. 扩散生成器保留多模态能力只做擅长的事生成器沿用扩散模型的优势负责建模条件轨迹分布先把多视角传感器数据编码为BEV特征提取车道、道路边界等静态元素与周边车辆、行人等动态元素以场景嵌入为条件通过DiT扩散网络迭代去噪生成多条连续轨迹候选。整个生成过程不直接参与RL更新仅通过后续的在线优化渐进式向高奖励流形偏移既保留了多模态生成能力又避免了高维空间优化的不稳定性。3. RL判别器把复杂规划变成偏好学习判别器是RAD-2承接强化学习的核心它的任务是给每条轨迹输出0-1之间的置信度分数1. 对轨迹序列编码用CLS token聚合全局信息2. 与场景特征做交叉注意力融合理解轨迹与环境的匹配度3. 用sigmoid激活输出分数分数越高代表轨迹长期安全性、效率性越好。通过这种设计RAD-2把高维轨迹优化问题转化为低维轨迹偏好排序问题完美适配RL的稀疏奖励信号让原本不稳定的更新变得可控。03三大技术让闭环训练稳下来、跑得快框架解耦只是基础RAD-2真正拉开差距的是配套的稳定优化算法与高效仿真环境这也是它能落地实车的关键。1. TC-GRPO时序一致的相对策略优化解决信用分配传统RL在自动驾驶里失效很大原因是车辆频繁切换轨迹意图破坏行为连贯性奖励无法正确归因。RAD-2提出TC-GRPO时序一致分组相对策略优化图 | RAD-2 训练流程图扩散生成器 Transformer 判别器联合优化做轨迹复用选定一条最优轨迹后在固定视野内重复执行保持短时间行为一致做分组优势计算同一初始状态下的多条推演轨迹分为一组用组内均值与标准差标准化优势函数过滤噪声加自适应熵正则防止分数坍缩到0或1保持探索能力。公式仅保留核心目标其中是裁剪后的目标是自适应熵正则项。这套机制让奖励信号精准对应到具体轨迹决策有效缓解信用分配难题让判别器训练更稳定。2. OGO在线生成器优化只优化关键维度判别器负责重排生成器则需要渐进式提升输出质量。RAD-2设计OGO在线生成器优化不优化完整高维轨迹只针对纵向分量速度、加速度调整碰撞风险高时减速效率不足且安全时加速用优化后的轨迹做有监督微调让生成器分布缓慢、稳定地向高奖励区域移动。这种“小步微调”的方式既利用了闭环反馈又不会破坏生成器的多模态能力平衡了探索与利用。3. BEV-Warp高吞吐仿真解决规模化训练痛点为了支撑大规模RL训练RAD-2提出BEV-Warp仿真环境图 | BEV-Warp 仿真环境原理图直接在BEV特征空间做闭环评估跳过图像级渲染大幅降低计算成本用空间扭曲矩阵根据自车位姿变化对齐参考BEV特征保证仿真保真度基于真实路采序列初始化兼顾真实感与推演效率。对比CARLA、3DGS仿真器BEV-Warp实现了高吞吐、轻量、高保真三者兼顾是工业界规模化训练的务实选择。图 | BEV-Warp 空间等变性验证04实验结果安全与效率双提升落地能力验证充分RAD-2在BEV-Warp、3DGS两种仿真环境以及实车平台上做了全面验证结果很有说服力1. 闭环安全性能碰撞率大幅下降在安全导向场景中碰撞率从ResAD的0.533降至0.234下降56%有责碰撞率从0.264降至0.092Safety1最小碰撞时间大于1秒的比例从0.418升至0.730。图 | BEV-Warp 仿真环境闭环性能对比在3DGS写实仿真里RAD-2也取得最低碰撞率0.250Safety1达到0.723超越Senna-2、RAD等同类工作。图 | 3DGS 写实仿真环境性能评估2. 通行效率更像人类驾驶效率导向场景中自车进度均值EP-Mean从0.970升至0.988EP1.0完成100%导航目标比例从0.516升至0.736EP0.9达到0.984几乎完成所有导航任务。3. 开环轨迹精度误差更低在Senna-2开环测试集上图 | Senna-2 开环数据集轨迹评估最终位移误差FDE降至0.553m平均位移误差ADE降至0.208m整体碰撞率降至0.142%远低于此前最优的0.288%。4. 实车部署感知安全与平顺性提升实车测试显示RAD-2在复杂城市路况下不安全行为显著减少驾驶平顺性提升符合量产落地的安全要求。5. 消融实验每个模块都不可或缺仅生成器微调碰撞率下降但效率降低仅判别器RL安全提升但生成上限受限联合优化安全与效率同时达到最优验证了生成-判别协同的必要性。图 | 训练流水线消融研究图 | 熵正则化消融实验05RAD-2的优势、局限与行业启示1. 核心优势工业界导向的落地友好设计RAD-2没有追求学术上的花哨创新而是紧扣量产需求图 | 闭环安全交互定性对比架构稳健解耦设计降低RL训练风险适合长期维护与迭代效率优先BEV-Warp仿真轻量高效支持大规模训练性能均衡安全、效率、平顺性同时提升无明显短板可扩展性推理时增加候选轨迹数量性能可继续提升无需重训。图 | 动态交通场景通行效率定性对比对工业界而言这种不折腾、能落地、好规模化的方案比纯学术突破更有价值。2. 现存局限框架绑定与场景边界RAD-2并非完美有明确的约束依赖BEV表征BEV-Warp基于BEV特征扭曲对非BEV架构的感知方案不友好动态适应有限极端突发动态场景的鲁棒性仍有提升空间生成器优化保守纵向优化稳定但横向轨迹调整能力未被充分激活。3. 行业启示端到端规划的下一步是“稳定优先”过去两年端到端规划赛道一直在卷“新模型、新模态、新范式”但RAD-2给出了另一条思路当生成式规划的基础框架已经成熟落地的核心矛盾不再是“能不能生成多模态轨迹”而是“能不能稳定、安全、高效地闭环优化”。它证明了三件事1. 生成-判别解耦是高维动作空间RL的有效路径2. 时序一致性是自动驾驶RL稳定训练的关键先验3. 轻量化特征级仿真是大规模训练的务实选择。这会成为接下来工业界端到端规划的主流思路不盲目堆新技术先把闭环训练的稳定性、安全性做扎实。06总结RAD-2是地平线在端到端生成式规划上的一次务实升级它没有推翻扩散规划的既有体系而是用生成-判别解耦框架解决了扩散模型RL的稳定性痛点用TC-GRPO与OGO完成稳定协同优化用BEV-Warp打通大规模训练瓶颈。对于端到端自动驾驶而言RAD-2的意义不在于提出多么颠覆性的新架构而在于证明生成式规划的落地不需要一味求新把老问题用稳定、高效的方式解决就是最大的创新。未来这套生成-判别稳定RL的思路很可能会成为扩散规划落地的标配范式而RAD-2就是这个方向上的重要里程碑。Ref论文标题RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework论文链接https://arxiv.org/html/2604.15308v1项目地址https://hgao-cv.github.io/RAD-2