很多人还是忽视了 Deepseek 对国产算力卡的巨大拉动作用
Deepseek 这家公司对我们真的是国运级,而且连续带来了两次国运级突破!
第一次是 R1,告诉全世界:中国人即使算力受限,也可以做出顶级的世界大模型
直接破解了美国企图力大飞砖,利用算力限制,在 AI 上卡死我们的想法
第二次就是 V4,在计算成本上把国产 AI 卡,特别是昇腾 950,带得飞起来
Deepseek V4 训练是离不开 NVIDIA 计算卡的,这点我们必须要承认
但是晟腾 950 已经部分参与到了V4的训练,并且可以100%承接推理的需求,这一点特别关键
一个大模型的训练当然要消耗很多的算力,但是之前囤积的计算卡,还远没有到捉襟见肘的地步
现在大家都已经开始 AI 实用化,拼的就是你能用多低的成本给用户提供多大规模的服务
这里面有两个关键,成本要低,服务承载量要大
成本低靠的是什么呢?靠的是 Deepseek V4 原生的 FP4 能力,就是把推理精度降下去,换取更高的算力
比如原来有一张卡,它的 FP16 算力只有 500T;那么在理论上把精度降低到 FP8,算力可以直接蹦到 1000T;如果更狠一点,把精度降到 FP4,那么算力甚至可以蹦到 2000T!
那大家之前为什么不做呢?因为降精度很有可能把模型干崩了训练的时候容易崩溃,导致几百万、几千万美金的成本直接打水漂;推理的时候,也就是给用户服务的时候,更加容易出现幻觉等不稳定的毛病,也会崩溃
之前整个行业一般做到 FP8 就不敢再动了,再动就会严重影响整个训练和推理的体验
只有一些开源的 AI 模型网站上,为了在PC这种小算力平台上部署,大家才会用 FP4 或者 INT4 做量化
Deepseek V4 这次比较狠的地方,就是原生的 FP4 推理,非常好的控制了训练和推理过程的质量
在精度暴跌的情况之下,依然可以非常精准的控制模型,这是真正的 AI 屠龙术
而偏偏美国这次想卖的 H200,它的架构原生是不支持 FP4 的(要到下一代B300芯片才支持)
并不是说不能运行,模型一样可以跑,只不过必须要反转到 FP8 模式,这就导致H200 跑模型推理的时候,用 FP4 毫无性能增益
但是昇腾 950 却因为支持FP4,运行 V4 的时候可以凭空多出一倍的算力
这就导致我国对于 H200 的需求量大大减低:
训练的时候,我们确实还离不开 NV
但是训练算力现在已经不是大头,Deepseek 都可以靠库存的 N 卡训练出一个 V4;其他家要是训不出来,那纯粹是水平问题
现在最重要的是推理,是如何让 AI 来服务更多的用户,不要人用多了就卡死了
既然在推理端,Deepseek V4这样的大模型可以用昇腾 950 干出一个吓死所有人的低价,那你买 H200 回来不就等于是赔钱吗?
所以不买 H200 并不是一个强硬的政治主张,是有背后极其现实的经济利益
以前离不开你,是因为你太强了,国产芯片完全没法用
现在我用国产芯片反而推理成本更便宜,Token 单价轻松砍掉 80%,那我还买个锤子?
