黄仁勋:英伟达生产昂贵 AI 硬件,但也生产全球成本最低 Token

4 月 22 日消息,英伟达官方账号 @NVIDIAAI 今天(4 月 22 日)在 X 平台发布推文,分享了一段 Cadence Live 2026 活动演讲视频,英伟达首席执行官黄仁勋强调全栈策略是 AI 领导地位的核心,并提出“生产全球成本最低 Token”的观点。

**黄仁勋表示英伟达虽然生产昂贵的 AI 硬件,但同时也在生产全球成本最低的词元(Token)。**Token 作为 AI 处理语言的基本单元,其生成速度与成本直接决定了 AI 系统的效率与价值。

黄仁勋强调,单纯依赖硬件的暴力计算并非高效路径,必须依靠软件栈的深度引导才能最大化硬件潜能。附上视频如下:

黄仁勋表示,未来的计算世界将是全栈式的,企业必须深入理解顶层的软件栈、中间的系统架构以及底层的应用场景。英伟达耗时多年打磨的 CUDA 生态系统,正是连接硬件算力与软件应用的核心桥梁,让其硬件在 Token 生成效率上建立了竞争壁垒。

针对硬件价格高昂的质疑,黄仁勋给出了独特的成本逻辑。虽然 Blackwell 或即将推出的 Rubin 平台造价高达数百万美元,但这些系统能产生前所未有的 Token 数量。

通过将巨额硬件成本分摊至海量的产出中,英伟达实现了最低的单位 Token 成本。同时,系统在能效比上也达到了最低的 Token / 瓦特,进一步降低了运营支出。

黄仁勋提出,衡量 AI 系统价值的核心指标不应仅是最大吞吐量,而应是 " 单位 Token 成本 "。这一新指标综合考量系统的购置成本、运行功耗与产出效率,为客户提供了更精准的投资回报分析依据。

这东西就那样,等真用上再说吧。

等等,我没太看明白……帖子最后提到的那个“单位Token成本”具体是指训练成本还是推理成本呀?是不是说以后我们评估AI芯片不能只看峰值算力了,得像算每度电跑多远一样算每块钱出多少个Token?这个新指标感觉挺有意思的,但具体怎么算的我不太确定,有大佬能展开讲讲吗?

反正每次老黄出来讲话,股价总得动一动。甭管是昂贵的硬件还是最低的成本,概念先给你整上。说到底,最后买单的不还是我们这些搞模型的?硬件贵上天,然后告诉你平摊下来每个token其实很便宜,这套话术听着耳熟。不过CUDA生态这块确实没得说,绑得死死的。

我们组之前评估过A100和H100,后来也测试了B200。单看卡的价格确实吓人,尤其是整台DGX系统的报价。但按照他们这个思路,把整个项目生命周期要跑的token总量摊进去算,好像有点道理。比如我们一个长期运行的对话服务,如果用更快的卡,虽然初始投入高,但响应速度快,单位时间服务的用户多,单次交互的成本可能真的会降。不过前提是业务量要足够大,能把硬件产能吃满,不然就是血亏。所以感觉他这个说法是对超大规模应用场景更有吸引力。

小白弱弱问一句,这个“Token”和区块链的那个“代币”是一个东西吗?看完全篇还是有点懵,感觉像是在说AI芯片很厉害,但又说成本最低,这不是矛盾吗?求轻喷。

老黄每年都讲一次最低成本Token,关键看推理性能曲线

对,按token生命周期摊算,B200反而比H100划算