0%

2024-11-14-insights

EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation

ego video,指的是第一人称视角。作者认为,目前的视频生成领域中,一直做第一人称视角生成的不好,是因为数据不够好,作者搞了一个 5M 的数据集,都用 LLM 标注了对应的 action

开源就是好

Large Language Models Can Self-Improve in Long-context Reasoning

之前 neubig 有个工作,通过 MBR decoding 在一堆 trace 里选一个最好的,这次有人在 long-context qa 里应用了一遍,发现还真能涨点。

话说 STAR 这块,似乎大家现在研究不是很多的样子…… 都去搞 o1 了吗

Powered By Valine
v1.5.2