我按照rwkv.cn以及B站的教程视频,准备了微调数据。尝试通过DiSHA微调增强模型的捞针能力。
于是将训练数据的格式请教了Bo佬,Bo佬指出,需要给训练数据加Mask。
于是又去请教了J.L,得知应该将target问题部分设置为-100
但是这要如何处理呢,在文档与视频中都没有此步骤的操作过程
我按照rwkv.cn以及B站的教程视频,准备了微调数据。尝试通过DiSHA微调增强模型的捞针能力。
于是将训练数据的格式请教了Bo佬,Bo佬指出,需要给训练数据加Mask。
于是又去请教了J.L,得知应该将target问题部分设置为-100
但是这要如何处理呢,在文档与视频中都没有此步骤的操作过程