DC娱乐网

[CV]《Echo-Memory: A Controlled Study of

[CV]《Echo-Memory: A Controlled Study of Memory in Action World Models》W King, Z Xue, Y Bian, J Huang… [The University of Hong Kong & Joy Future Academy, JD & The Chinese University of Hong Kong] (2026)

在长视频生成的行动世界模型中,记忆失效是核心瓶颈。当摄像机离开后再返回同一场景时,现有模型往往无法保持场景或显著物体的一致性——这不是图像合成问题,而是记忆机制的根本缺陷。过去的方法将记忆设计与骨干网络、训练策略、检索方式纠缠在一起,导致性能提升的真实来源无法被隔离识别。

本文将记忆机制从其他变量中剥离,构建了一个控制性对比矩阵:固定视频扩散骨干、优化器、相机动作表示和评估管道,仅改变历史信息的存储与读取方式。通过对比原始上下文、压缩记忆、空间摘要和状态空间递归四种记忆家族,并引入三分支评估协议(重放质量、域内环路重访、开放域返回探测),研究揭示了一个被忽视的分裂:重放保真度与重访一致性并不单调对齐——空间记忆在轨迹重放中表现最佳但在开放域返回中崩溃,而块状态空间递归则相反。

这项工作真正留下的遗产是一套可复现的记忆机制评估协议,以及对"记忆容量不等于记忆保真度"的实证确认。它为后来者打开的新门是:将记忆设计从生成质量中解耦,用语义重访而非像素对齐作为最终标准。但尚未跨过的门槛是:当前的紧凑记忆机制(空间摘要、混合压缩)仍无法在保持效率的同时保留关键物体证据,而原始上下文容量曲线表明边际收益递减——真正的解决方案需要明确的物体感知保留目标,而非仅仅减少令牌数量。

arxiv.org/abs/2606.09803 机器学习 人工智能 论文 AI创造营