Learning from Streaming Video with Orthogonal Gradients
训练视频理解模型时,如果视频很长,就不得不切分成多个视频块,然后在不同 batch 里分开去前向了。作者发现已有工作基本都是先把整个数据集所有的视频切分完,再统一 random shuffle,但是其实一个长视频里前面的片段和后面的片段是关系很大的。 既然这样,作者就让训练时加载 batch 也是 streaming 来的,并且在 optimizer 中让梯度尽可能正交,发现对效果提升很明显
An Illusion of Progress? Assessing the Current State of Web Agents
一篇很不错的 online gui benchmark 工作,其实几天前就在 Twitter 宣传了,估计是被 arxiv 卡 track 了今天才挂出来。作者做了一个新的 mind2web 网页信息搜集 benchmark
是的,如果你真的测过老 mind2web-live 和 webarena,你就知道这几个老古董有多难用…… 一点信号都反馈不到
PaperBench: Evaluating AI’s Ability to Replicate AI Research
OpenAI 竟然发了一个双栏论文,这是打算回归学术界了?作者和去年 icml 20 篇 oral 的作者合作,出了一个论文复线 benchmark,看看模型能不能自动复现论文。由于这个任务实在太难了,作者就和论文作者联手做了 reward shaping,把一个任务拆成 autoregressive 的多个子任务,总共 8000 多个子任务。由此,就可以比较客观地研究 agent 在论文复现 benchmark 上的表现了
虽然是测试集,但感觉这个东西大致上就是 deep-research 的 data infra 了。怎么说,gpt5 准备在这个上面拉坨大的?
v1.5.2