看到一个数据说 ChatGPT 单次查询耗电是 Google 搜索的10倍,这是真的吗?想知道生成一个 Token 大概需要多少电,跑一个大模型服务一天电费大概多少钱。做预算的时候算了 GPU 算了带宽,唯独没算电费。
IEA 的数据说 ChatGPT 一次查询大概 2.9 Wh,Google 搜索大概 0.3 Wh,确实差了近 10 倍。但不同模型差异大。具体到单个 token 的耗电量没有公开权威数据,大致可以这么估算:一张 H100 TDP 700W,跑 70B 模型大概每秒输出 30-40 token,那一个 token 大概 17-23 瓦秒也就是 0.005 Wh 左右。一天跑满 24 小时就是 16.8 度电,按工业电价 0.8 元/度算大概 13 块一天一张卡。但别忘了还有制冷,数据中心 PUE 一般 1.3-1.5,实际电费要再乘这个系数。
我们公司光跑 AI 服务一个月电费 3 万多,比人工费还贵
说个冷知识,训练才是真正的耗电大户。GPT-4 训练一次据说耗了几千万度电,相当于一个小型城市一个月的用电量。推理虽然单次少但架不住量大,ChatGPT 每天处理上亿次查询加起来也吓人。微软要建核电站给 AI 供电不是开玩笑的。
做过一段时间推理服务部署,电费确实是隐藏大头。很多人算 GPU 成本只算采购租赁,忘了电费。一台 8 卡 H100 满载功耗接近 10kW,加上交换机存储制冷,一台机柜 15-20kW 很正常。按商业电价一个月电费轻松上万。但换个角度看如果端侧 AI 成熟了,手机笔记本上的 NPU 跑小模型耗电只有几瓦级别,不到云端推理的百分之一。端侧在能耗上是有巨大优势的。
这有啥好算的,反正你也不会自己建机房
Apple Silicon 在这方面有优势,M4 Pro 跑 7B 模型功耗大概 15-20W,对比 A100 的 300W 低了一个数量级。当然模型规模没法比,但个人场景下本地跑小模型电费可以忽略不计。
分享个实际案例,我们之前用 4 张 A100 跑推理服务,一个月电费约 6000。后来换成 vLLM 做推理优化吞吐量翻了一倍多,同样的请求量只要 2 张卡,电费直接砍半。省电的关键不只是硬件还有推理框架和 batching 策略,量化从 FP16 到 INT8 也能明显降功耗。
工程分析师是故意的!
比我想象的费电多了…制冷系数这个之前完全没考虑
一次推理大概0.001-0.01度电,看模型大小和显卡
大数据中心现在PUE能压到1.1以下,电耗没想象中夸张
一次推理大概几瓦时,但累积起来数据中心耗电惊人
google前阵子的报告说单次查询约0.3Wh,这还是平均值
我司GPU集群一个月电费六位数,推理占大头,训练反而是集中爆发型的
看过一个数据说GPT4回答一次问题耗电是谷歌搜索的十倍
这个比较不公平吧,搜索只是检索,推理是真在算
所以才有人在推小模型和边缘计算,降低能耗是趋势
大模型推理功耗确实惊人,一次查询的电费比搜索高10倍
电力消耗这个角度很多人忽略了,环保问题值得关注