0%

2025-07-11-insights

StarDojo: Benchmarking Open-Ended Behaviors of Agentic Multimodal LLMs in Production–Living Simulations with Stardew Valley

2年多前有个西部小镇的multiagent工作,这篇工作有点在致敬他。他从《星露谷物语》游戏取材,扒出来了100个任务做了一个评测集。

Scaling RL to Long Videos

songhan老师还是在长文领域发力,这次是做到了512k的video understanding的rl,同时开源了训练框架