0%

2025-01-24-insights

发现最近一段时间semantic Scholar的数据同步似乎有点问题,对于引用的统计切换回google scholar……要接近了吗,那个数字

GUI-Bee : Align GUI Action Grounding to Novel Environments via Autonomous Exploration

一篇GUI Agent的工作,乍一看有点费解,其实思路还挺有趣的。作者发现,GUI里面的app、网页等环境是无穷无尽的。上游的gui model在有限的环境里面训练,但仍然缺乏对于下游特定app的世界知识,所以作者实际了一套framework,可以快速把上游gui model用到下游任务中来,在下游app中自动爬grounding数据。

Improving Video Generation with Human Feedback

一篇扎实的工作,作者对不同视频生成模型标注了人类偏序,基于此做了RLHF链路,并对于视频生成这个领域做了一些优化。