Bootstrap

大模型中的token是什么;常见大语言模型的 token 情况

目录

大模型中的token是什么

常见大语言模型的 token 情况


大模型中的token是什么

  1. 定义
    • 在大模型中,token 是文本处理的基本单位。它可以是一个字、一个词,或者是其他被模型定义的语言单元。简单来说,模型在理解和生成文本时,不是以完整的句子或段落为单位进行一次性处理,而是将文本拆分成一个个 token 来逐步处理。
  2. 举例说明
    • 以英文句子为例,“I love reading books.” 这个句子可能会被拆分成多个 token,如 “I”“love”“reading”“books”,每个单词就是一个 token。在中文里,对于句子 “我喜欢读书”,可能会被拆分成 “我”“喜欢”“读书” 这几个 token

;