今天是 OpenAI 开发者大会的日子,从今天开始,抄袭 OpenAI 新功能的手快论文应该开始工作了。让我们看看第零天有没有产出!
FLAP: Fast Language-Audio Pre-training
来自 Meta 的好文,就是挂的太早了,出现在了今天 54 篇的最后 4 篇,要不是翻到了最后,差点就错过了……
讲了一个快速且高效的做 视频 - 文 模态对齐的工作,达到了新的 SOTA。工作流程很简单,如下图所示,总体 loss 由一个 CLIP loss 和一个 reconstruction loss 构成,我就有点好奇这竟然没人试过?不过有趣的是,作者加 mask 的方式是把视频的一些颜色 mask 掉,这个方式不知道视频领域常用不常用
v1.5.2