InfoEntropy Loss to Mitigate Bias of Learning Difficulties for Generative Language Models
中科院的论文,作者发现在训练时,一个 instance 内部不同的 token 的难度事实上并不一样。作者希望把困难的 token 加大 loss 来让模型更关注于不会的地方。于是作者直接按照 prediction 概率个 loss 做加权,新出来的模型在 code generation 任务上效果竟然还不错
我还以为这样改 loss 训练会崩
v1.5.2