2024-10-07-insights

Frame-Voyager: Learning to Query Frames for Video Large Language Models

字节出的一篇关键帧抽取的工作，是一套以终为始的思路：关键帧抽取是为了更好地进行VQA。那可以先随机抽一大堆关键帧组，然后每个组合都回答一次vqa，根据答案的质量(其实是正确答案的ppl)反过来给出关键帧抽取质量的评价，找出来关键帧抽取方案的正负样本

很聪明！不过它的瓶颈看起来是随机抽到好帧的概率，当视频变长以后，这种方案随机采样到真正好帧的可能性就会下降。

Better Instruction-Following Through Minimum Bayes Risk

Neubig的工作，作者搞了个神奇的方法：大家现在做Post training 的大致方法都是生成一堆回答然后给一些评价。这个事情其实可以online地去实现，如果可以给评价loss，那其实就可以用MBR解码找到\(\sum_{y'} P(y’)·L(y,y')\)最小的y。这个方法甚至都不需要reward model，就能给一堆样本拿到一个得分。作者首先实验了一下在运行时直接MBR找最好的样本，发现这个样本一般确实是最好的。然后又尝试了self-train，把MBR样本当成正样本，发现训完的模型直接greedy-decoding就和之前用MBR挑出来的样本差不多好

Exploring the Benefit of Activation Sparsity in Pre-training

师兄的工作，作者发现在模型预训练中也是存在稀疏激活现象的，由此开发了一套集和Dense training和MoE training的pipeline，根据激活情况进行动态的routing，由此训出来的模型既可以作为dense模型保持效果，也可以用MoE的方式加快推理速度