0%

2025-03-12-insights

Toward Stable World Models: Measuring and Addressing World Instability in Generative Environments

一篇world model的工作,作者发现已有的world model一致性较差,然后给了一个简单的方法去评估:在环境里面先做一组action,再做一组相反的动作,然后观察回到的位置是否和最开始的相同。

这其实是个悖论:因为相反的动作,不一定倒推出相反的视频。比如向前走撞墙了,再往前其实也没往前,但后退就会真的后退。如果inverse的方案可行的话,其实把训练数据inverse一下,就能做数据增强了。

不过这个思考的角度挺有意思的:假如我有一个agent-policy,它的任务是检查一个world是否具有一致性。其角色类似于“楚门”,那么agent可以给出对于world model的准确评估吗?

Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

字节的工作,行文算是比较开放的,作者讲了构造数据、以及在生成中使用各种补丁来提升end2end效果的努力。感觉想要把一个东西做好,确实得是这样一个个trick叠加在一起。

Gemini Embedding: Generalizable Embeddings from Gemini

gemini出的embedding工作,基本没有什么技术细节,主要就是跑分。主打多语言、多场景的统一建模理解。

感觉现在大家卷了一圈又卷回去了?前几天mixtral出了个ocr model,今天gemini出了个embedding