2024-11-25-insights

发表于 2024-11-25 更新于 2024-11-28 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 610 阅读时长 ≈ 1 分钟

What’s in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning

一篇online video caption的工作，作者的leader前几个月还做了一个Streaming Dense Video Captioning。作者改了一下建模方式，让模型在解码时不用看到前面的文本。

deepmind感觉是想在4o场景从数据角度发力了呀

ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data

一篇GUI Agent的工作，作者用一堆工作流标注出来了很多SFT数据，训练了一个HTML-based LLM Agent，在下游任务上表现很好。

所以，数据在哪

XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models

之前OpenAI更新了tool-call强制模式，保证一定会输出json format. 这次有个工作讨论了这个问题：强制grammar输出模式，一般都会建一个类似编译器的扫描表，把不符合语法的token logits置成0。但对于模型来说，这些还会和forward、KV-cache绑定，这里面是有一些加速空间的。作者搞了个grammar generation的加速框架