0%

2025-05-15-insights

发表于 2025-05-15 更新于 2025-05-22 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 384 阅读时长 ≈ 1 分钟

BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset

一篇开源的生成理解统一模型工作，既可以做vqa，也可以直接生图。

数据开源，我直接推

RT-cache: Efficient Robot Trajectory Retrieval System

这篇论文的场景比较有趣。作者讨论的是，如果已经有一个数据库，里面包含很多成功完成任务的视频。然后模型在做任务的时候，可以访问到之前这些视频的话，可以对完成现在的任务有帮助吗？

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

今天的顶流论文，讲了deepseek v3的infra，如何通过软硬件联合开发来加速训练。