[CV]《WorldModelingwithProbabilisticS

爱生活爱珂珂 2025-09-16 05:41:53

[CV]《World Modeling with Probabilistic Structure Integration》K Kotar, W Lee, R Venkatesh, H Chen... [Stanford University] (2025)

Probabilistic Structure Integration(PSI)开创性地构建了可控性极强、灵活可提示的世界模型,推动视觉和物理推理进入新阶段:

• 通过Local Random-Access Sequence(LRAS)架构,PSI将高维视觉数据转化为带指针的序列,支持任意局部变量的条件概率预测,实现高效且可扩展的概率图模型Ψ,具备随机访问和多样采样路径。

• 利用零样本因果推断,从Ψ中提取中间结构(如光流、深度、物体分割),通过对比事实与反事实提示,精准捕捉视觉因果关系,无需额外监督,且生成的中间结构可定义为新令牌类型。

• 创新地将提取的结构令牌融入原始数据序列,继续训练同一模型,形成闭环自我增强机制。此“令牌混合”策略无需模型架构改动,即可扩展控制界面,提升预测质量,支持复杂条件推理。

• 在自然视频数据上训练的7B参数模型,能执行物理视频编辑、视觉Jenga、机器人运动预测等多样任务,实现基于物理因果的精细控制和推断,光流和深度提取达到先进水平。

• 结合熵度量与灵活采样,PSI实现了不确定性管理,平衡生成质量与速度,支持并行与顺序采样混合,适应实时和高保真应用场景。

心得:

1. 用概率图模型统一多模态视觉变量,结合随机顺序自回归,打破传统视觉模型固定生成顺序限制,极大增强灵活性和可控性。

2. 反事实提示作为零样本因果查询手段,成为非语言域中泛化提示语言的雏形,构建了视觉领域可交互的通用提示界面。

3. 令牌级结构集成突破了传统多模型分工的瓶颈,实现了多层次场景理解的递归自我强化,推动了从像素到物理再到语义的统一世界建模。

详情🔗 arxiv.org/abs/2509.09737

人工智能世界建模因果推断光流深度估计视频理解机器人可控生成

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注