0%

2025-10-23-insights

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

这是一篇nvidia出的、很贵的工作。作者雇了物理、化学、金融等领域的博士生来给一个个领域题目写rubric(每个题目的评分标准),一共写了7000题的数据集,由此可以用llm judge来做专业领域题目的自动判分。这个方法有点像GDPVal,但是好像走得更远

开源

VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

之前yutao老师做了一个叫agentTrek的工作,让模型自动复现互联网的图文教程。作者这次把这个方法扩展到了视频领域,从软件的视频教程里提取action,变成可以训练的图文交错形式,进而给模型注入操作知识。前几天google(Watch and Learn)也出了一个IDM领域的cua工作,但更focus在in-context learning角度。

话说IDM的效果真的能做好吗