2024-04-12-insights

OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

Tao Yu老师的工作：作者在windows/mac os/ubuntu几个系统上搭建了模拟环境，可以进行各种操作。然后定义了一个含有369 task的数据集，发现目前的Agent在这些任务上非常差。

经典的benchmark类型的论文……下一篇工作就是标10万条数据，发现在in domain做的和4v一样好……再下一篇是rl+self-train以后out-domain效果也不错

deepmind的综述性文章：作者归纳了近期所有training on synthetic data类型的论文，分析了一些insight和趋势，并且给出了他们自己在这个方向上的经验。

Weizhu Chen的论文，作者发现训练语料里的很多token是完全的噪声，对训练只会取得负面的影响。所有一个直觉就是：找到“噪声token”不去计算loss会不会更好呢？

作者发现这样训了2Btoken以后，和之前deepseek math的500Btoken效果一样。7B模型MATH acc 50%。

一个7B GSM8K 80%，一个7B MATH 50%，仿佛变成什么凭证了吗……好像是黄老师那个ToRA先起的头