0%

2025-07-11-insights

发表于 2025-07-13 更新于 2025-07-17 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 259 阅读时长 ≈ 1 分钟

StarDojo: Benchmarking Open-Ended Behaviors of Agentic Multimodal LLMs in Production–Living Simulations with Stardew Valley

2年多前有个西部小镇的multiagent工作，这篇工作有点在致敬他。他从《星露谷物语》游戏取材，扒出来了100个任务做了一个评测集。

Scaling RL to Long Videos

songhan老师还是在长文领域发力，这次是做到了512k的video understanding的rl，同时开源了训练框架