最早的bug复现了……orz……

这是我最早训练的时候出现的一个bug,目前出现的原因不清楚。我跑了很多次(失败了很多次),这种情况只出现过两次,不过,出现的大都是我语料提供的很大的时候。上次是几十万条吧,这次是三万多条。以下是日志:
Ubuntu Pastebin
这个情况不是总出现的,因为训练三万条语句,我做过两次,上次顺利跑到90%多了,这次是50%就报这个bug然后崩溃……救命啊……

数据条数<bsz*epoch_steps导致的

是epoch_steps太大了吗?

你的 jsonl 行数,必须大于两个训练参数 bsz * epoch_steps 的数量

1 个赞

突然翻到了,我也犯了这个错,数据条数 < bsz*epoch_steps,话说这个能不能在文档中特别标注一下,目前的文档和视频中均没有看到

已经在文档中强调了,谢谢反馈