InfoEntropy Loss to Mitigate Bias of Learning Difficulties for Generative Language Models
中科院的论文,作者发现在训练时,一个instance内部不同的token的难度事实上并不一样。作者希望把困难的token加大loss来让模型更关注于不会的地方。于是作者直接按照prediction概率个loss做加权,新出来的模型在code generation任务上效果竟然还不错
我还以为这样改loss训练会崩