2023-10-31-insights 发表于 2023-10-31 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 233 阅读时长 ≈ 1 分钟 InfoEntropy Loss to Mitigate Bias of Learning Difficulties for Generative Language Models中科院的论文,作者发现在训练时,一个instance内部不同的token的难度事实上并不一样。作者希望把困难的token加大loss来让模型更关注于不会的地方。于是作者直接按照prediction概率个loss做加权,新出来的模型在code generation任务上效果竟然还不错 我还以为这样改loss训练会崩 相关文章 本月更新(Recent Update) arxiv-insights 2024-12-30-insights 2024-12-25-insights 2024-12-24-insights