[LG]《Diffusion Policy Optimization witho

[LG]《Diffusion Policy Optimization without Drifting Apart》H Jiang, H Feng, P Abbeel, J Jiao… [UC Berkeley] (2026)

在扩散策略领域，RL后训练常先涨后崩：代理目标还能升，真实回报却掉。过去方法受困于ELBO与似然越走越散，本质原因是更新同时改了“答案”和“尺子”。

本文的核心洞见是：把ELBO漂移看作问题本身，而非只盯回报。由此，用同一批轨迹做自蒸馏先把ELBO拉紧，再做策略梯度；每步再加一项ELBO正则，阻止两者继续分家。

这项工作留下的遗产是：把“保持代理可信”变成RL后训练的设计原则。它为扩散语言模型和连续控制打开了稳定优化的路径，但仍依赖合适的蒸馏强度与近似的ELBO。

arxiv.org/abs/2606.13795 机器学习人工智能论文 AI创造营

DC娱乐网