微调loss特别大 #11

zixiliuUSC · 2022-02-09T08:45:33Z

我采用你们的模型进行微调，微调的数据是小说数据，尝试了两种输入结构，训练loss都是从8.8开始下降，valid ppl非常大。第一种是每行的结构为：{"prompt": 随机截取的小说文本，长度为256, "text": 一本小说删除换行符后拼接，长度约为10w字}，第二种是每行结构为：{"prompt": text的前文，长度为256, "text": 把一本小说按512长度分段}。请问那种输入结构是正确的呢？我从代码来看你们用的应该是第一种，但是为什么loss还是这么大呢？

duzx16 · 2022-02-14T02:10:42Z

应该是{"prompt": "", text: 小说文本}。prompt表示的是不需要生成的部分，如果你是想生成小说的话可以从头生成没有prompt。按512长度分段是程序自动完成的，不需要在数据里面完成

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

微调loss特别大 #11

微调loss特别大 #11

zixiliuUSC commented Feb 9, 2022

duzx16 commented Feb 14, 2022

微调loss特别大 #11

微调loss特别大 #11

Comments

zixiliuUSC commented Feb 9, 2022

duzx16 commented Feb 14, 2022