StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding
组里的工作:已有的video benchmark都是假设模型看完了视频去进行回答,如果模型在看视频的过程中问题就来了呢,可以立即回答吗?作者由此构造了个benchmark
streaming video understanding的工作真挺少的,之前看过一个streaming video caption,和一个VideoLLM Online。cv里似乎把这个场景叫做online,streaming是openAI的提法