Skip to content

Latest commit

 

History

History
23 lines (14 loc) · 1.11 KB

concepts.md

File metadata and controls

23 lines (14 loc) · 1.11 KB

词表(Vocabulary)

包含了模型能够理解和生成的所有单词、符号和其他文本片段的集合。每个单词或者文本片段在词表中都有一个唯一的索引或编码。在处理文本数据时,模型会使用这个词表将输入的文本转换为一系列的数字,这些数字对应于词表中的每个单词或文本片段的索引

词表在代码里怎么表示的?比如 llama 里

构建

大小:通常包含数万到数百万个不同的单词或符号

内容:常用单词、短语、标点符号、特殊符号等

稀有词处理:为了处理不在词表中的单词(即稀有词或未登录词),通常用一个或多个特殊的符号来表示这些单词

词表的作用

文本编码:txt embedding

文本生成:模型输出的 token,需要映射回词表中的单词或符号

子词词表

Byte Pair Encoding(BPE) 和 WordPiece 是构建子词词表的两种流行方法

词表的大小和内容需要在模型训练之前确定,并在整个训练过程中保持不变

总之它将自然语言文本与模型内部的数值表示相互映射