2025-04-03-insights

Learning from Streaming Video with Orthogonal Gradients

训练视频理解模型时，如果视频很长，就不得不切分成多个视频块，然后在不同batch里分开去前向了。作者发现已有工作基本都是先把整个数据集所有的视频切分完，再统一random shuffle，但是其实一个长视频里前面的片段和后面的片段是关系很大的。既然这样，作者就让训练时加载batch也是streaming来的，并且在optimizer中让梯度尽可能正交，发现对效果提升很明显

An Illusion of Progress? Assessing the Current State of Web Agents

一篇很不错的online gui benchmark工作，其实几天前就在Twitter宣传了，估计是被arxiv卡track了今天才挂出来。作者做了一个新的mind2web网页信息搜集benchmark

是的，如果你真的测过老mind2web-live和webarena，你就知道这几个老古董有多难用……一点信号都反馈不到

PaperBench: Evaluating AI’s Ability to Replicate AI Research

OpenAI竟然发了一个双栏论文，这是打算回归学术界了？作者和去年icml 20篇oral的作者合作，出了一个论文复线benchmark，看看模型能不能自动复现论文。由于这个任务实在太难了，作者就和论文作者联手做了reward shaping，把一个任务拆成autoregressive的多个子任务，总共8000多个子任务。由此，就可以比较客观地研究agent在论文复现benchmark上的表现了

虽然是测试集，但感觉这个东西大致上就是deep-research的data infra了。怎么说，gpt5准备在这个上面拉坨大的？