Scaling up the think-aloud method
这篇工作挺好玩的,之前o1刚出的时候,大家做冷启数据,都是找人录音或者写题解。作者探索了录音的模式能不能scaling。让640个人玩24点游戏,然后用录音表达他们的所有想法,然后进行了一些分析,观察人类录音会不会表达人的所有想法。
其实这个方向里,pixmo做录音image caption,应该是效果很好。但是从perception到录音reasoning以后,似乎确实没有人把这事做出来
LlamaRL: A Distributed Asynchronous Reinforcement Learning Framework for Efficient Large-scale LLM Training
llama出了一篇rl framework的工作,把他们的rl训练框架开源了。这是能训405B的框架
Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents
一篇vlm puzzle的测试集。之前我也见到几篇puzzle的工作,但是基本都停留一个puzzle类型里出不同的题目,作者把这个称为验证码。这篇工作更像是每个puzzle是自底向上找出来的。
