0%

2025-05-15-insights

BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset

一篇开源的生成理解统一模型工作,既可以做vqa,也可以直接生图。

数据开源,我直接推

RT-cache: Efficient Robot Trajectory Retrieval System

这篇论文的场景比较有趣。作者讨论的是,如果已经有一个数据库,里面包含很多成功完成任务的视频。然后模型在做任务的时候,可以访问到之前这些视频的话,可以对完成现在的任务有帮助吗?

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

今天的顶流论文,讲了deepseek v3的infra,如何通过软硬件联合开发来加速训练。