2024-08-23-insights 发表于 2024-08-23 更新于 2024-08-29 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 117 阅读时长 ≈ 1 分钟 Jamba-1.5: Hybrid Transformer-Mamba Models at Scale 之前有个叫jamba的论文,第一次把mamba训起来了,这次出了jamba 1.5,直接搞了个激活92B参数Mamba MoE。感觉能训起来确实牛 相关文章 本月更新(Recent Update) arxiv-insights 2024-11-21-insights 2024-11-20-insights 2024-11-19-insights