最近看到不少文章开始用"词元"来替代Token这个说法,好像是有了官方的中文命名?之前大家都是直接说Token,突然改口叫词元还有点不习惯。想问一下:
- 这个"词元"的命名是谁定的?有官方标准吗?
- 为什么不叫"令牌"或者"字符",偏偏选了"词元"?
- 以后写文章是不是都得用词元了?
最近看到不少文章开始用"词元"来替代Token这个说法,好像是有了官方的中文命名?之前大家都是直接说Token,突然改口叫词元还有点不习惯。想问一下:
“词元"这个翻译其实很精确。Token在NLP里指的是文本被分词器切分后的最小处理单元,它不一定是一个完整的词,也不一定是一个字符——它是介于两者之间的"词的元素”。所以叫"词元",既体现了"词"的属性,又体现了"元素/单元"的含义。
至于"令牌"这个翻译,那是计算机安全领域的用法(比如OAuth Token),跟AI的词元完全是两码事。如果翻译成"令牌"反而容易跟身份验证搞混。
国内学术界和工信部相关文件已经开始统一使用"词元"了,算是半官方标准吧。
之前写公众号文章都是直接写Token,现在编辑让我改成词元,说是为了中文读者更好理解。改了几篇确实感觉阅读体验好了,"消耗了1000个词元"比"消耗了1000个Token"更直观。
词元这个翻译挺好的其实,至少比"通证"强多了哈哈
补充一个冷知识:中文的词元化比英文复杂很多。英文基本按空格+子词拆分,一个常见单词大概1-1.5个词元。但中文没有空格,分词器通常把一个汉字拆成1-2个词元,所以同样的内容中文版消耗的词元比英文版多不少。这也是为什么中文用户特别关心词元消耗量的原因。
感觉以后"词元"会像"人工智能""深度学习"一样成为标准术语
搞懂了!词=词语,元=元素/单元,合起来就是"词的最小单元"。这么一想确实比Token好理解。以后跟人解释也方便,不用先解释Token是啥英文了
叫词元挺好的,比直接说token接地气