Scaling Language-Free Visual Representation Learning
Lecun 和 Saining 的工作:他还是对 self-supervise 念念不忘。看可能还真有点说法:作者发现,vlm 里的 encoder,之前用 clip loss 一直比 ssl loss 效果好,可能是 scaling 的不够,在对于数据量、参数量、测试集做了 scaling 以后,其实是 ssl 效果更好
再等等看…… 没准这个月的 llama4,会是 ssl encoder?
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?
如果大家记得之前有一篇叫 gsm8k-zero 的工作,发现把简单数学题改成不需要数学的形式,模型效果会直接变烂。字节这篇新工作也是类似的,作者发现简单把题目了一些动词改成类似的形式,也是直接烂掉。
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents
agent s2 应该是框架 agent 的新巅峰了,其实已经出来有段时间了,但是论文今天才挂出来。作者对于 planning 和 grounding 有专门的 agent module 去增强,达到了目前最强的效果。
v1.5.2