0%

2025-03-07-insights

Simulating the Real World: A Unified Survey of Multimodal Generative Models

一篇aigc的综述,不过这篇文章里面,作者把text2image,text2video和cad-gen在一个框架里叙述,总体都属于生成式世界模型的一个大框架。

Shifting Long-Context LLMs Research from Input to Output

这是一个偏position paper的工作,作者呼吁大家把长文本的研究从long-input转向long-output,说明现在的agent、long-cot等方向,里面的一个核心问题是long-output的能力。

唐杰老师和李娟子老师其实都在这个方向做了一定的探索,感觉2025年再搞大海捞针确实有点low了。不过另一面,我倒是感觉long-input可能并不是一个已经被solve的问题,而是大海捞针这个setting被solve了。我总觉得agent领域里有某个"有效context"的概念,就是模型能基于多少步的信息做推理,大家做agent-scaling时,瓶颈就在有效context太短。