0%

2025-03-18-insights

发表于 2025-03-18 更新于 2025-03-21 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 493 阅读时长 ≈ 1 分钟

ViSpeak: Visual Instruction Feedback in Streaming Videos

这个工作很有趣，作者发现在流式视频模型里，除了问答场景之外，还应该开发更多可能，让instruction也脱离语言模态。比如说，我挥挥手，意思是再见，模型能不能理解？

Unified Autoregressive Visual Generation and Understanding with Continuous Tokens

这两天gemini 2的原声双模态生成刚火了一波，今天deepmind就出了个双模态生成模型，这个是基于gemma训的。不知道这俩有没有关系

好家伙，小号开源大号商用……这不字节吗

EXAONE Deep: Reasoning Enhanced Language Models

一个r1-like的工作：不错的分数，开源的模型。就是不知道刷榜严重不严重，感觉未来半年这种工作会越来越多。

Training Video Foundation Models with NVIDIA NeMo

Nvidia最近似乎一直在做这个Video Foundation Model的概念，上次出了个模型，这次把训练框架单独出了。