Goku: Flow Based Video Generative Foundation Models
字节新出的工作,可以同时生成图片和视频,这里面用到了 rectified flow Transformers。这篇工作,还要追溯到 Scaling Rectified Flow Transformers for High-Resolution Image Synthesis, stable diffusion 3 用到的技术。大概意思是,正常 diffusion 里面,每个 timestep 的加噪都是独立的 (把图片添加一个随机噪声,不同 step 重新随机,只是绝对值不同)。但是,如果使得不同 time step 里面的加噪是一个线性的过程呢?这就是 flow 的意思。
话说这个东西好像是现在 diffusion 的新趋势,我已经很久没看 diffusion 的论文了…… 落伍了呀
Scalable Oversight for Superhuman AI via Recursive Self-Critiquing
这篇工作名字起得很大气,内容和之前 OpenAI 一篇叫”LLM Critics Help Catch LLM Bugs” 的工作很类似:如果模型水平超越人类了,那么人就无法给模型生成的结果进行反馈。但是,如果人去改另一个模型给目标模型的反馈,这个任务是否会更容易呢,这个 setting 就是 critique of critique?作者还尝试了递归的场景 (critique of critique of critique of …)
如果大家对这类 scalable oversight 领域的工作感兴趣,推荐先去读一下 OpenAI 的那个工作,写的真的挺好的……
v1.5.2