What’s in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning
一篇online video
caption的工作,作者的leader前几个月还做了一个Streaming Dense Video Captioning
。作者改了一下建模方式,让模型在解码时不用看到前面的文本。
deepmind感觉是想在4o场景从数据角度发力了呀
ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data
一篇GUI Agent的工作,作者用一堆工作流标注出来了很多SFT数据,训练了一个HTML-based LLM Agent,在下游任务上表现很好。
所以,数据在哪
XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models
之前OpenAI更新了tool-call强制模式,保证一定会输出json format. 这次有个工作讨论了这个问题:强制grammar输出模式,一般都会建一个类似编译器的扫描表,把不符合语法的token logits置成0。但对于模型来说,这些还会和forward、KV-cache绑定,这里面是有一些加速空间的。作者搞了个grammar generation的加速框架