0%

2024-01-25-insights

MambaByte: Token-free Selective State Space Model

Cornell 的论文,作者发现 mamba 架构对于 byte modeling 建模能力很好。这个是指不用 tokenizer,直接对于 char 进行建模:总体 sequence 长,词表小。正好 mamba 对于长文本的建模复杂度是 nlogn

Powered By Valine
v1.5.2