0%

2024-08-27-insights

Focused Large Language Models are Stable Many-Shot Learners

在 many-shot 场景,近期有研究发现 LLM 的表现不达预期。作者分析这个现象,发现一个简单的原因:当 context 很长以后,answer 生成时的 attention 不会聚焦在 query 上,而是被 in-context 样本分散了。作者设计了一个简单的恢复方法,甚至结果还不错

颇有 ACL 遗风,论文挺有故事感的

Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models

印度老哥的工作,作者思考了 delta tuning 这个场景:只微调少量参数来节省显存,同时获得正常 finetune 差不多的效果。作者设计了一套 selective 的框架,让模型自由选择学习哪些参数,通过 loss 大小作为 feedback。

这个场景之前推荐过类似的论文,这里面其实有个反直觉的问题:如果我增加训练次数等方法来做更好地 delta tuning,那到底是增加了算力还是减少了算力呢……

Powered By Valine
v1.5.2