关于奖励模型训练数据的构成 #409

Eren139 · 2024-08-26T02:39:25Z

我想请问一下，该项目在训练医学奖励模型的时候，是只用到了医学领域的偏好数据集吗？有没有和通用领域的偏好进行混合训练？我只用医学偏好数据集训练奖励模型会有严重的过拟合。

shibing624 · 2024-08-26T03:13:21Z

需要混合。

Eren139 · 2024-08-26T06:52:52Z

需要混合。

非常感谢您的回答，我可以再问您一下奖励模型数据的混合比例吗，大概通用数据集占多少，医疗数据集占多少？

shibing624 · 2024-08-27T09:38:58Z

10:1，通用10

litsh · 2024-09-03T03:35:25Z

您好，请问可以和您交流一下奖励模型的训练吗？方便的话可以留一下联系方式。

Eren139 · 2024-09-06T01:59:46Z

您好，请问可以和您交流一下奖励模型的训练吗？方便的话可以留一下联系方式。

你好，我最近才开始了解，也不是很熟悉，如果需要的话可以加我微信：Eren_139

world2025 · 2024-11-08T06:50:50Z

@shibing624 请问下reward model数据集不支持像Instructgpt一样，一个prompt+k个response的排序集合吗？我看数据构造这块仅仅是偏好对的数据

Eren139 added the question Further information is requested label Aug 26, 2024

Provide feedback