目录
大模型中的token是什么
- 定义
- 在大模型中,token 是文本处理的基本单位。它可以是一个字、一个词,或者是其他被模型定义的语言单元。简单来说,模型在理解和生成文本时,不是以完整的句子或段落为单位进行一次性处理,而是将文本拆分成一个个 token 来逐步处理。
- 举例说明
-
以英文句子为例,“I love reading books.” 这个句子可能会被拆分成多个 token,如 “I”“love”“reading”“books”,每个单词就是一个 token。在中文里,对于句子 “我喜欢读书”,可能会被拆分成 “我”“喜欢”“读书” 这几个 token
-