Toward Stable World Models: Measuring and Addressing World Instability in Generative Environments
一篇 world model 的工作,作者发现已有的 world model 一致性较差,然后给了一个简单的方法去评估:在环境里面先做一组 action,再做一组相反的动作,然后观察回到的位置是否和最开始的相同。
这其实是个悖论:因为相反的动作,不一定倒推出相反的视频。比如向前走撞墙了,再往前其实也没往前,但后退就会真的后退。如果 inverse 的方案可行的话,其实把训练数据 inverse 一下,就能做数据增强了。
不过这个思考的角度挺有意思的:假如我有一个 agent-policy,它的任务是检查一个 world 是否具有一致性。其角色类似于 “楚门”,那么 agent 可以给出对于 world model 的准确评估吗?
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
字节的工作,行文算是比较开放的,作者讲了构造数据、以及在生成中使用各种补丁来提升 end2end 效果的努力。感觉想要把一个东西做好,确实得是这样一个个 trick 叠加在一起。
Gemini Embedding: Generalizable Embeddings from Gemini
gemini 出的 embedding 工作,基本没有什么技术细节,主要就是跑分。主打多语言、多场景的统一建模理解。
感觉现在大家卷了一圈又卷回去了?前几天 mixtral 出了个 ocr model,今天 gemini 出了个 embedding
v1.5.2