2025-10-23-insights

发表于 2025-10-26 更新于 2025-11-03 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 451 阅读时长 ≈ 1 分钟

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

这是一篇nvidia出的、很贵的工作。作者雇了物理、化学、金融等领域的博士生来给一个个领域题目写rubric(每个题目的评分标准)，一共写了7000题的数据集，由此可以用llm judge来做专业领域题目的自动判分。这个方法有点像GDPVal，但是好像走得更远

开源

VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

之前yutao老师做了一个叫agentTrek的工作，让模型自动复现互联网的图文教程。作者这次把这个方法扩展到了视频领域，从软件的视频教程里提取action，变成可以训练的图文交错形式，进而给模型注入操作知识。前几天google(Watch and Learn)也出了一个IDM领域的cua工作，但更focus在in-context learning角度。

话说IDM的效果真的能做好吗