0%

2025-03-18-insights

ViSpeak: Visual Instruction Feedback in Streaming Videos

这个工作很有趣,作者发现在流式视频模型里,除了问答场景之外,还应该开发更多可能,让instruction也脱离语言模态。比如说,我挥挥手,意思是再见,模型能不能理解?

Unified Autoregressive Visual Generation and Understanding with Continuous Tokens

这两天gemini 2的原声双模态生成刚火了一波,今天deepmind就出了个双模态生成模型,这个是基于gemma训的。不知道这俩有没有关系

好家伙,小号开源大号商用……这不字节吗

EXAONE Deep: Reasoning Enhanced Language Models

一个r1-like的工作:不错的分数,开源的模型。就是不知道刷榜严重不严重,感觉未来半年这种工作会越来越多。

Training Video Foundation Models with NVIDIA NeMo

Nvidia最近似乎一直在做这个Video Foundation Model的概念,上次出了个模型,这次把训练框架单独出了。