0%

2025-01-20-insights

Universal Actions for Enhanced Embodied Foundation Models

作者发现,在embodied领域,不同的机器人的动作空间千差万别。如果把所有机器人的动作空间尽可能对齐的话,他们的推理能力会不会在一个模型里泛化呢?作者做了实验,发现确实可以。

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

seed的工作。作者思考了一个简单的问题:用视频生成的方式,可以让模型学会推理吗?举个例子,比如下棋,所有的棋谱都能用视频的方式组织成一步步下棋的格式。那么,如果把各种推理数据都这么直接训进视频模型,他会下棋吗?作者这么搞了一波,对比的baseline是正常的action-based rl,发现效果竟然挺好。

这个感觉潜力很大呀

Evolving Deeper LLM Thinking

deepmind的工作。作者提出了一套LLM自动合成long cot的方案,可以把一堆candidate进行refine、combine,最终让目前的最优解变得越来越长。作者发现用Gemini-1.5,最终效果非常好。