Tuning LayerNorm in Attention: Towards Efficient Multi-Modal LLM Finetuning
PET (parameter efficient tuning) 领域的文章,如标题那样,作者发现对于 multimodal-LM,只调整 transformer block 内部的 layernorm 也行,需要的参数比 Lora 少,同时效果有的时候会更好。
神奇…… 这让我想到:基本 MoE 干啥说明 PET 有潜力做这个。目前的 MoE 基本瞄准 MLP,这是不是说明 layerNorm 也有潜力搞 MoE 呢?

Understanding the Instruction Mixture for Large Language Model Fine-tuning
之前预训练领域有 doremi 之类的工作探索了每个 pretrain-subset 的比例对于模型最终效果的重要性。作者希望在 instruction tuning 领域做一个类似的事情,探索 (close-domain) instruction tuning 里面不同的任务类型对最终的模型有帮助吗?
- 不同的 instruction 类型对最终的效果有不同的影响
- 有些类型上做训练,会导致在其他类型上效果下降
这让我想起 Jason Wei 在 Flan-Collection 里提到不同的 instruction set 的 sample 权重的问题,不知道他有没有类似的 initial experiment

前面起高了,感觉后面有好几篇都挺好的,可惜今天只剩下一个名额了……
Cascade Speculative Drafting for Even Faster LLM Inference
投机推理的论文我应该已经放几篇了:online 投机推理、并行投机推理、预测投机推理…… 今天这位想了另一个问题:投机模型可以视为小模型级联一个大模型,那如果这个级联是递归的,会不会更好呢?
作者搞了一大堆数学,为了让分布和原来模型等价,然后最后发现效果比之前更好更快
看起来是 ICML 喜欢的风格

v1.5.2