robox报道,Q:DeepSeek的意外火爆,催生了一种论调:在大语言模型

德鲁大叔的车 2025-05-05 13:57:16

robo x 报道,Q:DeepSeek的意外火爆,催生了一种论调:在大语言模型领域,算力的需求没有像之前大家预估的那么高;那么,在自动驾驶领域,对于云端和车端的算力需求是否也有降低的趋势?

Nullmax首席科学家 成二康:我可以介绍一下我们端到端设计的思路,刚好与此问题相关:

现在比较火的VLM+端到端,或者VLA,本质上都是借用了语言的架构设计。

从ChatGPT火起来之后,语言模型已经过渡到以Decoder-only为主的技术架构设计。

既然如此,在自动驾驶领域是否能够存在自己的Decoder-only的技术架构设计?

这是我们目前端到端设计的重点。

这里面有一个核验证的结论:在自动驾驶中,如果能够很好地设计Decoder-only的技术架构,比如将参数量从9000万下降到3000万,也可以同样等价于1B、7B VLM或者是VLA同样的效果。

在自动驾驶中,当然可以借鉴VLA、VLM这样已有的技术架构和参数,用更高的算力实现目标。

但如果在中高阶算力,比如说100Tops左右的车端稠密算力上,更好地设计Decoder,它也可以实现和类似大语言结构一样的效果。

Decoder-only的技术架构在纯自动驾驶形态里面是可以被设计出来的。

———————

这是很有意思的一个信息,核心是说自动驾驶技术形态里 Decoder-only 架构也是可以被设计出来,只是需要找到方法。

Decoder-only 在大模型里是主流的架构设计,因为它的结构设计更简单,仅保留解码器,专注于生成任务,通过大规模预训练学习语言模式。

它的 单向注意力机制,逻辑是每个位置的Token只能关注当前位置及之前的信息,无法看到未来的Token(即通过注意力掩码实现)。

这种特性使其天然适合 自回归生成(逐词生成,如人类写作)。例如,生成第5个词时,只能基于前4个词的信息。

然后 自回归生成,可以通过递归预测下一个Token(例如,输入 今天天气,模型预测 真好),逐步生成完整序列。

这个架构的优缺点是:

- 优点:生成能力强、结构简单、扩展性好。

- 缺点:无法直接利用双向上下文(但通过大规模预训练可部分弥补)。

如果自动驾驶技术上类似的架构被设计出来,那车端的算力其实可以被释放不少。

如果 这种架构 的适配性足够高,那么可能会让中高算力的平台有机会达成高阶能力。

挺有意思的。

新能源大牛说

0 阅读:9
德鲁大叔的车

德鲁大叔的车

感谢大家的关注