2024-01-25-insights 发表于 2024-01-25 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 156 阅读时长 ≈ 1 分钟 MambaByte: Token-free Selective State Space Model Cornell的论文,作者发现mamba架构对于byte modeling建模能力很好。这个是指不用tokenizer,直接对于char进行建模:总体sequence长,词表小。正好mamba对于长文本的建模复杂度是nlogn 相关文章 本月更新(Recent Update) arxiv-insights 2024-11-21-insights 2024-11-20-insights 2024-11-19-insights