包含了模型能够理解和生成的所有单词、符号和其他文本片段的集合。每个单词或者文本片段在词表中都有一个唯一的索引或编码。在处理文本数据时,模型会使用这个词表将输入的文本转换为一系列的数字,这些数字对应于词表中的每个单词或文本片段的索引。
词表在代码里怎么表示的?比如 llama 里
大小:通常包含数万到数百万个不同的单词或符号
内容:常用单词、短语、标点符号、特殊符号等
稀有词处理:为了处理不在词表中的单词(即稀有词或未登录词),通常用一个或多个特殊的符号来表示这些单词
文本编码:txt embedding
文本生成:模型输出的 token,需要映射回词表中的单词或符号
Byte Pair Encoding(BPE) 和 WordPiece 是构建子词词表的两种流行方法
词表的大小和内容需要在模型训练之前确定,并在整个训练过程中保持不变
总之它将自然语言文本与模型内部的数值表示相互映射