0%

2024-09-27-insights

What Would You Ask When You First Saw a2 + b2 = c2? Evaluating LLM on Curiosity-Driven Questioning

挺有趣的纯文本的工作。这篇工作在评测模型的求知欲:收到一个passage,能提出怎样的问题?作者评测了不同模型,发现小模型其实提的问题反而更好。

之前RL有个curiosity-driven rl的方向把求知欲用一个value function建模出来,指导后面的探索。感觉现在有点像是用generative的方式看待这个问题,我还挺喜欢这个思路的可能的后续推导的

MIO: A Foundation Model on Multimodal Tokens

chamleon之后,终于又有人接了一下any-to-any modal的班,不知道为啥这个方向的工作挺少的,可能全是创业公司在卷?

The Hard Positive Truth about Vision-Language Compositionality

作者发现,之前大家认为clip过于”粗心“,把类似的负样本都分类到一起,所以有方法去引入hard negative。然而,这个训练导致clip过于敏感,把hard positive都分类错了。所以,作者同时引入了hard positive和 hard negative