DC娱乐网

VLA（Vision Language Action）：是一种多模态机器学

2025-11-05 17:26:05 可可看汽车啊汽车

VLA（Vision Language Action）：

是一种多模态机器学习模型，结合了视觉、语言和动作三种能力，旨在实现从感知输入直接映射到控制动作的完整闭环能力。VLA强调一体化多模态端到端架构，而非感知规控的模块化方案，其典型结构围绕视觉编码器、语言编码器和动作解码器三个关联模块构建，在自动驾驶等领域有重要应用。

克总随感｜

阅读：0 点赞：0