0%

2024-11-28-insights

VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

一篇streaming video qa的工作。之前的所谓streaming video qa,都是在视频中间提问题,立即回答。这篇工作探索了一个更进一步的场景:用户提问,模型可能不会立即回答。

再加个打断,就是4o了

Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models

作者提到,能不能给VLM挂载一些图片处理action,让推理时可以变成多轮API 调用。作者试了一下,发现4o做得很好

下一篇论文: boostrapping visual reasoning with autonomous imagination distillation [doge]

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

有趣的工作,作者想到一个办法:如果现在的VLM可以对VLM的错误给出一个自然语言的Critic,能不能设计一套actor-critic的训练框架把两个一起增强呢?

之前openAI有一篇工作叫做 LLM Critics Help Catch LLM Bugs...