2026年3月23日,中国发展高层论坛2026年年会上,国家数据局局长刘烈宏宣布了一项重要决定:将“Token”的中文名正式确定为“词元”。这一决定不仅为中文技术社区提供了统一术语,更标志着人工智能产业进入以词元为核心计量单位的新阶段。据披露,中国日均词元调用量已突破140万亿,较2024年初增长超千倍,这一数据背后折射出AI技术商业化落地的加速度。
为何命名为“词元”?
“词元”的命名源于其本质功能——作为人工智能处理信息的最小单元。国家数据局在官方公告中明确,词元是“大模型理解和处理文本的最小数据单元”,类似于人类语言中的“字、词或符号片段”。例如,句子“我爱中国!”可拆解为“我”“爱”“中国”“!”四个词元。这种拆分方式使AI能够高效处理海量数据,并通过词元组合生成符合语法规则的文本。
从技术演进看,词元的定义经历了从计算机术语到AI核心概念的转变。早期,Token在计算机领域指代“令牌”,用于身份验证或网络通信;在区块链领域,它演变为“通证”,代表可流通的加密权益证明。而随着大语言模型(LLM)的兴起,Token逐渐成为衡量模型处理能力的关键指标,最终在中文语境中被赋予“词元”这一更具技术内涵的名称。
日均140万亿词元调用的深层意义
日均词元调用量的爆发式增长,揭示了AI应用范式的根本性转变。2024年初,中国日均词元(Token)调用量仅为1000亿,而到2026年3月已突破140万亿,两年增长超千倍。这一数据背后,是AI从“玩具”向“基础设施”的跃迁:
商业化落地加速:高频、规模化的词元消耗由工业制造、生物医药、影视娱乐等行业的真实需求驱动。例如,AI演员在影视行业的应用、AI辅助药物研发流程的优化,均依赖大规模词元处理。
数据要素市场化:高质量行业数据的供给体系逐步完善,使模型生成的回答从“泛泛而谈”转向“精准解决痛点”,进一步刺激词元需求。
新型商业逻辑形成:词元成为连接技术供给与商业需求的“结算单位”,模型企业通过词元计费实现收入增长,部分企业甚至在20天内收入超越2025年全年。
词元(Token)内部包含哪些信息?
作为AI处理的最小单元,词元承载着多重信息维度:
语义信息:词元是文本语义的基础载体。例如,在对话系统中,用户输入的词元序列被模型解析为意图,进而生成响应。
结构信息:词元组合遵循语法规则,形成句子、段落等结构。模型通过分析词元间的关联性,理解上下文逻辑。
任务标识:在特定场景中,词元可标记任务类型。例如,在代码生成任务中,词元“def”可能触发函数定义逻辑。
权限信息:在安全管控严格的系统中,词元可附带权限标识。例如,Molili通过四级风险分类管控词元操作,高风险词元需用户二次确认。
词元(Token)经济下的技术优化与市场博弈
随着词元消耗量激增,算力成本成为制约AI普及的关键因素。2026年3月,阿里云、腾讯云等服务商相继上调AI算力价格,高端GPU“一卡难求”。
在此背景下,技术优化与商业模式创新成为破局关键:国内首款OpenClaw中文版Molili(molili.com.cn)通过动态上下文窗口调整、通用信息精简、Prompt工程优化等技术,将词元消耗降低50%以上。其积分订阅模式更使用户成本可预期,避免“天价账单”风险。
Molili的本土化适配策略(如一键安装、微信生态接入、8000+场景技能库)降低了AI Agent使用门槛,推动词元消耗从极客圈层向大众市场渗透。
“词元”的正式命名,不仅为AI技术提供了标准化术语,更标志着一个以信息单元计量为核心的新经济时代的到来。日均140万亿词元调用的背后,是技术突破与商业落地的双向奔赴,也是数据要素市场化配置改革的生动注脚。