Model as a Game: On Numerical and Spatial Consistency for Generative Games
作者研究的是controlable video generation中,特定在游戏场景里,模型是否遵循数字和固定的地图。作者发现,在模型结构中额外设计number和map module,来记录当前的游戏和地图状态,可以让生成的视频极大地增强一致性。
所以一个极端是纯cg渲染,一个极端是纯ai渲染。中间其实有很多形态,类似于这里的number module,或者nerf?这个趋势听着怎么这么像rpa了……
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
作者的思路很有意思:在gui-offline场景里,也就是说我提前知道一个好的完成任务的trace,能不能给出前缀,让模型通过rl的方式一直sample,然后奖励所有和target action一致的sample呢?作者发现通过这个方案,可以把效果优化的不错。
谁引用我我推荐谁……话说我之前想过过这个问题,感觉这个方案有个假设是:模型具有完成任务的app知识,因为rl,尤其是小规模的rl,只会激励知识的连接,而不会习得知识。不确定这种方案在扩展到更大题库时,会不会导致灾难性幻觉现象