DeepSeek V4 换上华为芯片,国产算力替代这条路走通了

DeepSeek V4 终于发了而且确认是在华为昇腾上训练部署的,没走英伟达。之前一直说适配很难跳票半年,现在看是磨出来了。国产大模型 + 国产芯片第一次真正跑通,意义比想象的大。

跑通不等于追平。V4 在昇腾上的推理效率比英伟达版低 20-30% 是行业内部已知的数据,只是 DeepSeek 官方没明说。但从 0 到 1 比从 1 到 100 难得多,能把整套训练推理链路在昇腾上跑起来本身就是巨大突破。后面持续优化 1-2 年差距可以缩到 10% 以内。昇腾的硬件设计跟英伟达差得不算远主要是软件栈落后,CANN 框架持续迭代下去有希望。

这事的意义不在技术本身而在供应链安全。一旦国产链路跑通就意味着有 Plan B,对中美博弈的筹码不一样了。技术差 20% 没关系,能用就行。

牛逼

别高兴太早。CUDA 生态不是硬件差距是几十年工具链积累,寒武纪海光沐曦都做过芯片但软件栈没人跟得上。DeepSeek 这次是工程团队硬堆人力磨出来的,其他公司没这个能力复制。国产替代要真正成熟还得 5-10 年。

从采购角度说一句。我们公司之前不敢上昇腾就是怕主流模型跑不动,现在 DeepSeek V4 跑通了采购的顾虑少很多。昇腾的单价比 H100 便宜一半,总体 TCO 还是有吸引力的。供应链替代这条路开了之后会有更多企业跟进。

等 V4 开源版出来再说,现在都是官方数据

生态这个事很微妙。DeepSeek 一家跑通不代表整个生态成熟,还需要 PyTorch 更新兼容、主流推理框架 vLLM/TGI 支持、云厂商提供托管、社区贡献算子优化。目前看 PyTorch 2.4 已经开始支持 CANN 后端,vLLM 的昇腾分支也在推进。整个链条可能还要一年才算真正成熟。但比两年前已经好太多了那时候连编译都是问题。

@rustpeng CUDA 生态这个观点我同意,短期内追不上。但 @bare_metal_brad 说的供应链安全角度更重要,不用追赶到极致只要能用就够战略意义

推理效率20-30%差距是真的,但CANN迭代到3.0之后差距能再压

供应链安全这视角对,能用比纯优化重要