0%

2025-04-02-insights

Scaling Language-Free Visual Representation Learning

Lecun和Saining的工作:他还是对self-supervise念念不忘。看可能还真有点说法:作者发现,vlm里的encoder,之前用clip loss一直比ssl loss效果好,可能是scaling的不够,在对于数据量、参数量、测试集做了scaling以后,其实是ssl效果更好

再等等看……没准这个月的llama4,会是ssl encoder?

Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

如果大家记得之前有一篇叫gsm8k-zero的工作,发现把简单数学题改成不需要数学的形式,模型效果会直接变烂。字节这篇新工作也是类似的,作者发现简单把题目了一些动词改成类似的形式,也是直接烂掉。

Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

agent s2应该是框架agent的新巅峰了,其实已经出来有段时间了,但是论文今天才挂出来。作者对于planning和grounding有专门的agent module去增强,达到了目前最强的效果。