我使用3b模型,rwkv6进行微调,结果,在使用wandb时,出现以下情况,剧烈抖动,造成模型学习不佳,就算调整学习率也难以改变其抖动,这些抖动是正常的吗?单纯的修改学习率貌似无法改变抖动
增大bsz或者梯度累计