hack-SysML/papers/NLP/concepts.md at master · Jack47/hack-SysML · GitHub

词表(Vocabulary)

包含了模型能够理解和生成的所有单词、符号和其他文本片段的集合。每个单词或者文本片段在词表中都有一个唯一的索引或编码。在处理文本数据时，模型会使用这个词表将输入的文本转换为一系列的数字，这些数字对应于词表中的每个单词或文本片段的索引。

词表在代码里怎么表示的？比如 llama 里

构建

大小：通常包含数万到数百万个不同的单词或符号

内容：常用单词、短语、标点符号、特殊符号等

稀有词处理：为了处理不在词表中的单词（即稀有词或未登录词），通常用一个或多个特殊的符号来表示这些单词

词表的作用

文本编码：txt embedding

文本生成：模型输出的 token，需要映射回词表中的单词或符号

子词词表

Byte Pair Encoding(BPE) 和 WordPiece 是构建子词词表的两种流行方法

词表的大小和内容需要在模型训练之前确定，并在整个训练过程中保持不变

总之它将自然语言文本与模型内部的数值表示相互映射