2024-11-14-insights

发表于 2024-11-15 更新于 2024-11-19 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 329 阅读时长 ≈ 1 分钟

EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation

ego video，指的是第一人称视角。作者认为，目前的视频生成领域中，一直做第一人称视角生成的不好，是因为数据不够好，作者搞了一个5M的数据集，都用LLM标注了对应的action

开源就是好

之前neubig有个工作，通过MBR decoding在一堆trace里选一个最好的，这次有人在long-context qa里应用了一遍，发现还真能涨点。

话说STAR这块，似乎大家现在研究不是很多的样子……都去搞o1了吗