Learning from Streaming Video with Orthogonal Gradients
训练视频理解模型时,如果视频很长,就不得不切分成多个视频块,然后在不同batch里分开去前向了。作者发现已有工作基本都是先把整个数据集所有的视频切分完,再统一random shuffle,但是其实一个长视频里前面的片段和后面的片段是关系很大的。 既然这样,作者就让训练时加载batch也是streaming来的,并且在optimizer中让梯度尽可能正交,发现对效果提升很明显
An Illusion of Progress? Assessing the Current State of Web Agents
一篇很不错的online gui benchmark工作,其实几天前就在Twitter宣传了,估计是被arxiv卡track了今天才挂出来。作者做了一个新的mind2web网页信息搜集benchmark
是的,如果你真的测过老mind2web-live和webarena,你就知道这几个老古董有多难用……一点信号都反馈不到
PaperBench: Evaluating AI’s Ability to Replicate AI Research
OpenAI竟然发了一个双栏论文,这是打算回归学术界了?作者和去年icml 20篇oral的作者合作,出了一个论文复线benchmark,看看模型能不能自动复现论文。由于这个任务实在太难了,作者就和论文作者联手做了reward shaping,把一个任务拆成autoregressive的多个子任务,总共8000多个子任务。由此,就可以比较客观地研究agent在论文复现benchmark上的表现了
虽然是测试集,但感觉这个东西大致上就是deep-research的data infra了。怎么说,gpt5准备在这个上面拉坨大的?