2025-03-07-insights

发表于 2025-03-08 更新于 2025-03-12 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 493 阅读时长 ≈ 1 分钟

Simulating the Real World: A Unified Survey of Multimodal Generative Models

一篇aigc的综述，不过这篇文章里面，作者把text2image，text2video和cad-gen在一个框架里叙述，总体都属于生成式世界模型的一个大框架。

Shifting Long-Context LLMs Research from Input to Output

这是一个偏position paper的工作，作者呼吁大家把长文本的研究从long-input转向long-output，说明现在的agent、long-cot等方向，里面的一个核心问题是long-output的能力。

唐杰老师和李娟子老师其实都在这个方向做了一定的探索，感觉2025年再搞大海捞针确实有点low了。不过另一面，我倒是感觉long-input可能并不是一个已经被solve的问题，而是大海捞针这个setting被solve了。我总觉得agent领域里有某个"有效context"的概念，就是模型能基于多少步的信息做推理，大家做agent-scaling时，瓶颈就在有效context太短。