0%

2024-11-28-insights

发表于 2024-11-28 更新于 2024-12-08 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 602 阅读时长 ≈ 1 分钟

VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

一篇streaming video qa的工作。之前的所谓streaming video qa，都是在视频中间提问题，立即回答。这篇工作探索了一个更进一步的场景：用户提问，模型可能不会立即回答。

再加个打断，就是4o了

Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models

作者提到，能不能给VLM挂载一些图片处理action，让推理时可以变成多轮API 调用。作者试了一下，发现4o做得很好

下一篇论文： boostrapping visual reasoning with autonomous imagination distillation [doge]

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

有趣的工作，作者想到一个办法：如果现在的VLM可以对VLM的错误给出一个自然语言的Critic，能不能设计一套actor-critic的训练框架把两个一起增强呢？

之前openAI有一篇工作叫做 LLM Critics Help Catch LLM Bugs...