同样的话用中文问ai花的token居然是英文的三倍?怎么回事

测试了一下同样内容中文版和英文版token数差距巨大。一个汉字到底算几个token?有省钱的办法吗

中文tokenizer效率低一个汉字大约2-3个token

deepseek的tokenizer对中文优化过会好一些

用英文prompt中文回复能省不少token

这就是为什么国产模型中文便宜的原因之一

别省这点钱了时间成本比token贵多了

system prompt用英文写能省一大笔

分词器的问题,中文一个字可能拆成两三个token

所以prompt尽量用英文写能省不少

中文一个字两三个token英文一个词一个确实亏

中文用户为什么不集体推动厂商优化tokenizer呢这是真金白银的差距

ds的tokenizer中文确实优化了同样的内容比gpt省40%左右

用英文prompt中文输出能省点token但逻辑偶尔跑偏

中文一个字拆三四个token,成本直接翻倍