[CV]《Echo-Memory: A Controlled Study of

[CV]《Echo-Memory: A Controlled Study of Memory in Action World Models》W King, Z Xue, Y Bian, J Huang… [The University of Hong Kong & Joy Future Academy, JD & The Chinese University of Hong Kong] (2026)

在长视频生成的行动世界模型中，记忆失效是核心瓶颈。当摄像机离开后再返回同一场景时，现有模型往往无法保持场景或显著物体的一致性——这不是图像合成问题，而是记忆机制的根本缺陷。过去的方法将记忆设计与骨干网络、训练策略、检索方式纠缠在一起，导致性能提升的真实来源无法被隔离识别。

本文将记忆机制从其他变量中剥离，构建了一个控制性对比矩阵：固定视频扩散骨干、优化器、相机动作表示和评估管道，仅改变历史信息的存储与读取方式。通过对比原始上下文、压缩记忆、空间摘要和状态空间递归四种记忆家族，并引入三分支评估协议（重放质量、域内环路重访、开放域返回探测），研究揭示了一个被忽视的分裂：重放保真度与重访一致性并不单调对齐——空间记忆在轨迹重放中表现最佳但在开放域返回中崩溃，而块状态空间递归则相反。

这项工作真正留下的遗产是一套可复现的记忆机制评估协议，以及对"记忆容量不等于记忆保真度"的实证确认。它为后来者打开的新门是：将记忆设计从生成质量中解耦，用语义重访而非像素对齐作为最终标准。但尚未跨过的门槛是：当前的紧凑记忆机制（空间摘要、混合压缩）仍无法在保持效率的同时保留关键物体证据，而原始上下文容量曲线表明边际收益递减——真正的解决方案需要明确的物体感知保留目标，而非仅仅减少令牌数量。

arxiv.org/abs/2606.09803 机器学习人工智能论文 AI创造营

DC娱乐网

[CV]《Echo-Memory: A Controlled Study of

热门分类