读者:看了眼理想linkvla这架构挺棒的,和常规的va不一样。原生的vla,之前类似于魔改,强行把vlm改成vla,现在就是v到token。
这样解决的vlm主模态输出时语言翻译到vla不精准且不好训的问题,可以更端到端的训,而且不再强依赖vlm本身的能力了。
之前用的vlm不成的话,输出的语言翻译成轨迹之前咋都不对。这会不强依赖基座vlm的l的输出质量了。
挺棒的这次,这次架构又能吃上llm红利又能解决vlm傻逼的问题。
虽然都是猜测,但fsd基本不可能是llm的架构,类似于系统一。
理想这次的有点真正的基于llm的系统2的感觉了,纯说感觉哈,就是像我之前感觉一代vla不成,这个我感觉能成,不是纯工程化,有一定程度的架构创新,又能端到端可验证的训练,应该上限很高。
理想汽车理想汽车理想i6理想i8理想mega理想l6理想l7理想l8理想l9
