BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset
一篇开源的生成理解统一模型工作,既可以做vqa,也可以直接生图。
数据开源,我直接推
RT-cache: Efficient Robot Trajectory Retrieval System
这篇论文的场景比较有趣。作者讨论的是,如果已经有一个数据库,里面包含很多成功完成任务的视频。然后模型在做任务的时候,可以访问到之前这些视频的话,可以对完成现在的任务有帮助吗?
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures
今天的顶流论文,讲了deepseek v3的infra,如何通过软硬件联合开发来加速训练。