测试了一下同样内容中文版和英文版token数差距巨大。一个汉字到底算几个token?有省钱的办法吗
中文tokenizer效率低一个汉字大约2-3个token
deepseek的tokenizer对中文优化过会好一些
用英文prompt中文回复能省不少token
这就是为什么国产模型中文便宜的原因之一
别省这点钱了时间成本比token贵多了
system prompt用英文写能省一大笔
分词器的问题,中文一个字可能拆成两三个token
所以prompt尽量用英文写能省不少
中文一个字两三个token英文一个词一个确实亏
中文用户为什么不集体推动厂商优化tokenizer呢这是真金白银的差距
ds的tokenizer中文确实优化了同样的内容比gpt省40%左右
用英文prompt中文输出能省点token但逻辑偶尔跑偏
中文一个字拆三四个token,成本直接翻倍