DeepSeek 迟迟不发的真正原因:国产芯片适配太难了

之前有人分析 DeepSeek V4 跳票是因为华为昇腾芯片适配的问题,我深入了解了一下发现水比想象的深。不只是算子优化的问题,是整个国产 AI 芯片软件栈还不够成熟。

昇腾的硬件规格其实不差,910B 的标称算力跟 A100 可比。但 CUDA 生态的护城河太深了,英伟达几十年积累的编译器优化、库函数、调试工具链,不是华为几年能追上的。DeepSeek 适配昇腾的时候发现很多底层算子的性能只有 CUDA 版本的 60-70%,要一个一个手动优化太耗人力了。

这个问题不只是 DeepSeek 面临的。所有要在昇腾上跑的大模型公司都有同样的痛苦,只是 DeepSeek 的规模和要求最高所以最先碰到天花板。华为自己也知道这个问题在加紧优化 CANN 框架,但生态建设急不来。

说个更深层的问题。不只是昇腾,国产 GPU 赛道上的寒武纪、海光、沐曦等也都面临同样的软件生态短板。硬件差距在缩小但软件差距可能在扩大因为 CUDA 生态也在不断进化。这是一个需要整个行业长期投入的系统工程。

所以英伟达的护城河不是芯片本身而是 CUDA 生态

等国产芯片适配成熟黄花菜都凉了,先用英伟达发出来再说

从产业安全角度看 DeepSeek 非要等昇腾一起发是正确的。只发英伟达版本然后昇腾版「稍后推出」最后大概率就是遥遥无期了。一起发才能倒逼两边同时优化。

CUDA 的护城河确实深但不是不可突破。PyTorch 2.0 的 compile 后端在抽象化硬件差异,以后换硬件的成本会越来越低。只是现在还处于过渡期比较痛苦。

@infra_dawei 同意,一起发是倒逼适配的最好方式。@wuji_devops 短期确实难受但长期必须走这条路

华为昇腾的算子库和CUDA差距太大,适配难度不是一般的高

但这是必须走的路,总不能永远被英伟达卡脖子

DeepSeek等昇腾这个决策从产业角度看是对的,被卡脖子风险太大

芯片适配是真难,CUDA那套生态不是说替就替的

软件生态差距比硬件更难追,CUDA这个护城河短期很难撼动

华为的CANN框架在进步但生态还是差太多

一起发才能倒逼适配,单发英伟达就遥遥无期

CUDA生态护城河不是硬件差距,是软件差距