EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation
ego video,指的是第一人称视角。作者认为,目前的视频生成领域中,一直做第一人称视角生成的不好,是因为数据不够好,作者搞了一个 5M 的数据集,都用 LLM 标注了对应的 action
开源就是好
Large Language Models Can Self-Improve in Long-context Reasoning
之前 neubig 有个工作,通过 MBR decoding 在一堆 trace 里选一个最好的,这次有人在 long-context qa 里应用了一遍,发现还真能涨点。
话说 STAR 这块,似乎大家现在研究不是很多的样子…… 都去搞 o1 了吗
v1.5.2