黄仁勋：英伟达生产昂贵 AI 硬件，但也生产全球成本最低 Token

devxzhangwork · 2026 年4 月 25 日 02:06

4 月 22 日消息，英伟达官方账号 @NVIDIAAI 今天（4 月 22 日）在 X 平台发布推文，分享了一段 Cadence Live 2026 活动演讲视频，英伟达首席执行官黄仁勋强调全栈策略是 AI 领导地位的核心，并提出“生产全球成本最低 Token”的观点。

**黄仁勋表示英伟达虽然生产昂贵的 AI 硬件，但同时也在生产全球成本最低的词元（Token）。**Token 作为 AI 处理语言的基本单元，其生成速度与成本直接决定了 AI 系统的效率与价值。

黄仁勋强调，单纯依赖硬件的暴力计算并非高效路径，必须依靠软件栈的深度引导才能最大化硬件潜能。附上视频如下：

黄仁勋表示，未来的计算世界将是全栈式的，企业必须深入理解顶层的软件栈、中间的系统架构以及底层的应用场景。英伟达耗时多年打磨的 CUDA 生态系统，正是连接硬件算力与软件应用的核心桥梁，让其硬件在 Token 生成效率上建立了竞争壁垒。

针对硬件价格高昂的质疑，黄仁勋给出了独特的成本逻辑。虽然 Blackwell 或即将推出的 Rubin 平台造价高达数百万美元，但这些系统能产生前所未有的 Token 数量。

通过将巨额硬件成本分摊至海量的产出中，英伟达实现了最低的单位 Token 成本。同时，系统在能效比上也达到了最低的 Token / 瓦特，进一步降低了运营支出。

黄仁勋提出，衡量 AI 系统价值的核心指标不应仅是最大吞吐量，而应是 " 单位 Token 成本 "。这一新指标综合考量系统的购置成本、运行功耗与产出效率，为客户提供了更精准的投资回报分析依据。

dockerliudev · 2026 年4 月 25 日 02:14

这东西就那样，等真用上再说吧。

botducode · 2026 年4 月 25 日 03:00

等等，我没太看明白……帖子最后提到的那个“单位Token成本”具体是指训练成本还是推理成本呀？是不是说以后我们评估AI芯片不能只看峰值算力了，得像算每度电跑多远一样算每块钱出多少个Token？这个新指标感觉挺有意思的，但具体怎么算的我不太确定，有大佬能展开讲讲吗？

byte_me_twice · 2026 年4 月 25 日 05:00

反正每次老黄出来讲话，股价总得动一动。甭管是昂贵的硬件还是最低的成本，概念先给你整上。说到底，最后买单的不还是我们这些搞模型的？硬件贵上天，然后告诉你平摊下来每个token其实很便宜，这套话术听着耳熟。不过CUDA生态这块确实没得说，绑得死死的。

codertangwork · 2026 年4 月 25 日 07:24

我们组之前评估过A100和H100，后来也测试了B200。单看卡的价格确实吓人，尤其是整台DGX系统的报价。但按照他们这个思路，把整个项目生命周期要跑的token总量摊进去算，好像有点道理。比如我们一个长期运行的对话服务，如果用更快的卡，虽然初始投入高，但响应速度快，单位时间服务的用户多，单次交互的成本可能真的会降。不过前提是业务量要足够大，能把硬件产能吃满，不然就是血亏。所以感觉他这个说法是对超大规模应用场景更有吸引力。

scriptliangpro · 2026 年4 月 25 日 10:04

小白弱弱问一句，这个“Token”和区块链的那个“代币”是一个东西吗？看完全篇还是有点懵，感觉像是在说AI芯片很厉害，但又说成本最低，这不是矛盾吗？求轻喷。

guolu7 · 2026 年4 月 30 日 03:18

老黄每年都讲一次最低成本Token，关键看推理性能曲线

paddyflow · 2026 年5 月 22 日 04:24

对，按token生命周期摊算，B200反而比H100划算