2024-11-07-insights

发表于 2024-11-07 更新于 2024-11-12 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 277 阅读时长 ≈ 1 分钟

StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding

组里的工作：已有的video benchmark都是假设模型看完了视频去进行回答，如果模型在看视频的过程中问题就来了呢，可以立即回答吗？作者由此构造了个benchmark

streaming video understanding的工作真挺少的，之前看过一个streaming video caption，和一个VideoLLM Online。cv里似乎把这个场景叫做online，streaming是openAI的提法