0%

2024-10-07-insights

Frame-Voyager: Learning to Query Frames for Video Large Language Models

字节出的一篇关键帧抽取的工作,是一套以终为始的思路:关键帧抽取是为了更好地进行VQA。那可以先随机抽一大堆关键帧组,然后每个组合都回答一次vqa,根据答案的质量(其实是正确答案的ppl)反过来给出关键帧抽取质量的评价,找出来关键帧抽取方案的正负样本

很聪明!不过它的瓶颈看起来是随机抽到好帧的概率,当视频变长以后,这种方案随机采样到真正好帧的可能性就会下降。

Better Instruction-Following Through Minimum Bayes Risk

Neubig的工作,作者搞了个神奇的方法:大家现在做Post training 的大致方法都是生成一堆回答然后给一些评价。这个事情其实可以online地去实现,如果可以给评价loss,那其实就可以用MBR解码找到\(\sum_{y'} P(y’)·L(y,y')\)最小的y。这个方法甚至都不需要reward model,就能给一堆样本拿到一个得分。作者首先实验了一下在运行时直接MBR找最好的样本,发现这个样本一般确实是最好的。然后又尝试了self-train,把MBR样本当成正样本,发现训完的模型直接greedy-decoding就和之前用MBR挑出来的样本差不多好

Exploring the Benefit of Activation Sparsity in Pre-training

师兄的工作,作者发现在模型预训练中也是存在稀疏激活现象的,由此开发了一套集和Dense training和MoE training的pipeline,根据激活情况进行动态的routing,由此训出来的模型既可以作为dense模型保持效果,也可以用MoE的方式加快推理速度