Self-Rewarding Language Models
Meta 的论文:既然可以做 RLAIF,那么这个 LLM-as-a-Judge 为什么不能是自己?要训练 super-human 模型,就需要 super-human 的 reward。作者尝试了这种自己同时是 rewarder 也是 generator 的训练方式。发现 LLama 70B 在 3 iter 以后,就下游任务上就超过了 GPT4-0613
诶,这个方法没人试过吗?
Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs
作者认为,对于代码语言模型来说,没道理 prompt 就一定得是自然语言。如果表示成代码,是不是更加没有歧义了?作者做了一些实验,把 prompt 转成代码的形式,发现模型遵循代码的 instruction follow 能力提升了
LoMA: Lossless Compressed Memory Attention
ICML 风的论文。作者提到,已有的 memory、long-seq 研究,大家都希望把前缀表示成更紧凑的形式。然而,这个过程是有损的。作者提出了一个一套无损的压缩方式,并在下游任务中验证了他的有效性。
v1.5.2