大模型推理到底费多少电？Token 和电力什么关系

cloud_native_li · 2026 年4 月 7 日 23:34

看到一个数据说 ChatGPT 单次查询耗电是 Google 搜索的10倍，这是真的吗？想知道生成一个 Token 大概需要多少电，跑一个大模型服务一天电费大概多少钱。做预算的时候算了 GPU 算了带宽，唯独没算电费。

sudo_rm_rf · 2026 年4 月 8 日 03:03

IEA 的数据说 ChatGPT 一次查询大概 2.9 Wh，Google 搜索大概 0.3 Wh，确实差了近 10 倍。但不同模型差异大。具体到单个 token 的耗电量没有公开权威数据，大致可以这么估算：一张 H100 TDP 700W，跑 70B 模型大概每秒输出 30-40 token，那一个 token 大概 17-23 瓦秒也就是 0.005 Wh 左右。一天跑满 24 小时就是 16.8 度电，按工业电价 0.8 元/度算大概 13 块一天一张卡。但别忘了还有制冷，数据中心 PUE 一般 1.3-1.5，实际电费要再乘这个系数。

prod_is_down · 2026 年4 月 8 日 03:06

我们公司光跑 AI 服务一个月电费 3 万多，比人工费还贵

hackzhengrun · 2026 年4 月 8 日 03:09

说个冷知识，训练才是真正的耗电大户。GPT-4 训练一次据说耗了几千万度电，相当于一个小型城市一个月的用电量。推理虽然单次少但架不住量大，ChatGPT 每天处理上亿次查询加起来也吓人。微软要建核电站给 AI 供电不是开玩笑的。

linux_li_go · 2026 年4 月 8 日 03:12

做过一段时间推理服务部署，电费确实是隐藏大头。很多人算 GPU 成本只算采购租赁，忘了电费。一台 8 卡 H100 满载功耗接近 10kW，加上交换机存储制冷，一台机柜 15-20kW 很正常。按商业电价一个月电费轻松上万。但换个角度看如果端侧 AI 成熟了，手机笔记本上的 NPU 跑小模型耗电只有几瓦级别，不到云端推理的百分之一。端侧在能耗上是有巨大优势的。

chaosmakerzz · 2026 年4 月 8 日 03:15

这有啥好算的，反正你也不会自己建机房

swiftpengtech · 2026 年4 月 8 日 03:18

Apple Silicon 在这方面有优势，M4 Pro 跑 7B 模型功耗大概 15-20W，对比 A100 的 300W 低了一个数量级。当然模型规模没法比，但个人场景下本地跑小模型电费可以忽略不计。

wuji_devops · 2026 年4 月 8 日 03:21

分享个实际案例，我们之前用 4 张 A100 跑推理服务，一个月电费约 6000。后来换成 vLLM 做推理优化吞吐量翻了一倍多，同样的请求量只要 2 张卡，电费直接砍半。省电的关键不只是硬件还有推理框架和 batching 策略，量化从 FP16 到 INT8 也能明显降功耗。

Marssky136 · 2026 年4 月 8 日 03:21

工程分析师是故意的！

cloud_native_li · 2026 年4 月 8 日 03:24

比我想象的费电多了…制冷系数这个之前完全没考虑

dianli_suan · 2026 年4 月 10 日 11:51

一次推理大概0.001-0.01度电，看模型大小和显卡

lvse_jisuan · 2026 年4 月 10 日 11:51

大数据中心现在PUE能压到1.1以下，电耗没想象中夸张

dianli_dev · 2026 年4 月 10 日 13:04

一次推理大概几瓦时，但累积起来数据中心耗电惊人

greenai · 2026 年4 月 10 日 13:05

google前阵子的报告说单次查询约0.3Wh，这还是平均值

dianbiao_ge · 2026 年4 月 13 日 04:06

我司GPU集群一个月电费六位数，推理占大头，训练反而是集中爆发型的

okchai_zy · 2026 年4 月 13 日 06:17

看过一个数据说GPT4回答一次问题耗电是谷歌搜索的十倍

jk_mirror3 · 2026 年4 月 13 日 06:17

这个比较不公平吧，搜索只是检索，推理是真在算

zhangyu_env · 2026 年4 月 17 日 10:00

所以才有人在推小模型和边缘计算，降低能耗是趋势

ruochen_gpu · 2026 年4 月 18 日 05:16

大模型推理功耗确实惊人，一次查询的电费比搜索高10倍

sabinene_04 · 2026 年4 月 18 日 12:26

电力消耗这个角度很多人忽略了，环保问题值得关注