2024-01-25-insights 发表于 2024-01-25 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 156 阅读时长 ≈ 1 分钟 MambaByte: Token-free Selective State Space Model Cornell 的论文,作者发现 mamba 架构对于 byte modeling 建模能力很好。这个是指不用 tokenizer,直接对于 char 进行建模:总体 sequence 长,词表小。正好 mamba 对于长文本的建模复杂度是 nlogn 相关文章 本月更新 (Recent Update) arxiv-insights 2025-06-11-insights 2025-06-10-insights 2025-06-09-insights
v1.5.2