这是我最早训练的时候出现的一个bug,目前出现的原因不清楚。我跑了很多次(失败了很多次),这种情况只出现过两次,不过,出现的大都是我语料提供的很大的时候。上次是几十万条吧,这次是三万多条。以下是日志:
Ubuntu Pastebin
这个情况不是总出现的,因为训练三万条语句,我做过两次,上次顺利跑到90%多了,这次是50%就报这个bug然后崩溃……救命啊……
数据条数<bsz*epoch_steps导致的
是epoch_steps太大了吗?
你的 jsonl 行数,必须大于两个训练参数 bsz * epoch_steps 的数量
1 Like