2024-10-04-insights

今天论文都挺好的

From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities

这篇更好玩，是omni架构系列的工作，作者的想法是：能不能把bpe的思路应用都图片上，给每个patch打出来一个id，然后做image encoder。作者发现这样搞效果巨好

不是，哥们……

Video Instruction Tuning With Synthetic Data

很经典的llava系工作，作者整合了各种video caption数据集，最后合成出来了187k video sft数据，然后找了一波超参数，搞了个效果不错的llava-video模型。

这个和之前的llava-interleave的区别在哪

TypedThinker: Typed Thinking Improves Large Language Model Reasoning

Qwen团队的工作，幽默老中十一挂论文。沿着self-discover继续深入，作者发现不同的reasoning module适合不同的场景，如果让模型给每个query尝试不同的reasoning module，然后把答案正确的样本挑出来作为正样本，似乎可以让模型持续地自我迭代学会如何灵活运用各种reasoning module。