求问一下微调过程中各种参数的意义和如何判断过拟合

听群里大佬的建议,我加入了wanbd,检测训练过程,截图如下。
我不是专业编程出身的,能不能求大佬帮我解释一下,这些图表都是些什么?代表什么意思?我这个训练的图标正常吗?(最下面应该是GPU的状态吧,看到GPU三个字母。哈哈哈)如果想避免过拟合的话,主要看loss这个图表对吧?

群里常驻大佬“deepdarkfantasy”的回复:
过拟合的一大特点是 loss 非常低而且只会回答数据中已存在的东西,所以你可以从 1.0 的 loss 开始测试效果。(应该是第一个loss标签展示的东西吧,那当下我的loss图表中,这种震荡上下的应该是正常的。)

1 个赞

我认为抖动不正常,因为我的抖动之后,我仍旧把模型输出合并,并测试效果,结果是要么lora微调学不到东西,用state微调,学到一点点,然后就是在胡说八道,怀疑模型造成的离散度过大,数据怎么能抖动得那么厉害呢

我炼出来了,很明确感觉到模型学会我想让它学的文风了。有可能我们的训练目的不一样?我是训练续写的,训练集非常复杂,可能因为这个原因抖动剧烈吧。

增大bsz或者梯度累计可以减小抖动

抖动是正常的,直白讲:loss反应了当前数据与当前模型相似程度。

3 个赞