如果你用过ChatGPT、Claude或者任何AI工具,你一定听到过「Token」这个词。账单上写着「消耗了多少Token」,模型介绍里说「支持多少K上下文」——Token到底是什么?为什么所有AI都用它来计量?本文用最通俗的方式讲清楚。
Token是什么
Token是语言模型处理文本的最小单位,可以理解为模型「看」文字时的分割方式。
它不是一个字、也不是一个词,而是介于两者之间的东西。以英文为例:
hello= 1个Tokenunhappiness= 可能被分成un+happiness= 2个TokenChatGPT= 1个Token
中文由于字符更密集,通常1个汉字约等于1.5-2个Token。所以同样的内容,中文消耗的Token往往比英文多。
粗略的换算:1000个Token ≈ 750个英文单词 ≈ 500个汉字。
Token和算力的关系
模型每处理一个Token,都需要消耗计算资源(GPU算力)。这是最直接的关系:Token越多,算力消耗越大,响应时间越长,成本越高。
生成一段2000Token的回复,比生成100Token要消耗约20倍的算力。这也是为什么AI服务会限制每次对话的Token数量——不是技术上做不到更多,而是算力成本是真实的。
Token和API的关系
当你调用AI的API时,计费方式几乎都是按Token计算的,分为两部分:
- 输入Token(Input):你发给模型的内容,包括系统提示、历史对话、你的问题
- 输出Token(Output):模型生成的回复
输出Token通常比输入Token贵,因为生成比阅读更耗算力。
以Claude Sonnet为例,输入约$3/百万Token,输出约$15/百万Token。GPT-4o的价格区间类似。这就是为什么API账单有时看起来莫名其妙——你发了一大段上下文,光输入就用掉了很多Token。
最近小米也推出了面向普通用户的Token套餐,按量购买,按使用付费,这说明Token计费正在从开发者走向普通消费者。
Token和模型的关系:上下文窗口
**上下文窗口(Context Window)**是模型一次能「记住」的最大Token数量。
当你和AI聊天,所有的历史消息都要放进上下文窗口。一旦超出,最早的内容就会被「遗忘」。这就是为什么和AI聊得太长,它会忘记你最开始说的事。
- GPT-4o:128K Token上下文(约10万字)
- Claude 3.7 Sonnet:200K Token上下文(约15万字)
- Gemini 2.0 Pro:100万Token上下文(超长,但质量参差不齐)
上下文越大,你能让模型「一次性读完」的内容就越多——处理一整本书、一整个代码库都成为可能。
Token和Agent的关系
Agent是能自主执行多步骤任务的AI应用。它之所以成本比普通对话高得多,根本原因就是Agent会消耗大量Token。
一个Agent在完成任务时,通常需要:
- 读取工具返回的结果(大量输入Token)
- 多轮思考和规划(反复生成+处理)
- 调用工具、读文件、搜索(每次都要把结果塞进上下文)
一个复杂的Agent任务,轻松就能消耗几十万甚至上百万Token。这也是为什么Agent平台(无论是OpenClaw龙虾还是其他工具)都需要专门管理Token用量——用的是Agent的方便,付的是Token的账单。
一些工具已经开始做「Token守护」功能,提醒用户当前任务消耗了多少Token,避免意外超支。
常见误区
误区1:Token越多越好。Token多意味着上下文大,但也意味着费用高、速度慢。用多少给多少才是最优策略。
误区2:Token就是字数。不是一一对应的关系,中英文差异很大,代码和自然语言也不同。
误区3:Token用完就不能用了。付费模型一般是按量扣费,不是用完即止,只是成本在累积。
一句话总结
Token是AI处理文本的货币单位:模型用它衡量上下文大小,API用它计费,算力用它换钱,Agent用它堆任务。搞懂Token,就搞懂了AI服务的成本逻辑。
你在用AI过程中有没有遇到过Token相关的坑?或者对Token计费有什么疑问?欢迎留言讨论 ![]()