现有世界模型相关的技术路线可分为四类:第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词;第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,学到的是像素描述的世界;第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型;第四类是以视觉表征为中心的世界模型。
现有世界模型相关的技术路线可分为四类:第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词;第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,学到的是像素描述的世界;第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型;第四类是以视觉表征为中心的世界模型。