2025-01-15-insights 发表于 2025-01-15 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 142 阅读时长 ≈ 1 分钟 MiniMax-01: Scaling Foundation Models with Lightning Attention 今天的顶流,还得是MiniMax-01: 作者搞了个400B,激活45B的MoE模型,VL和Textonly两个版本。尤其是把context搞到了4M。 大家都在年前冲业绩…… 相关文章 本月更新(Recent Update) arxiv-insights 2025-01-14-insights 2025-01-13-insights