VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models
作者这里的XL,指的不是size,而是extra-length
,探索了video-CLIP模型能否处理这种超长的dense caption。由此,作者设计了一套从数据到模型的变化,然后还仿照F1 score的方式在description ranking任务上定义了两个指标
我听喜欢这个方向的,顺应了re-caption和caption越来越长的大潮流