0%

2024-01-25-insights

MambaByte: Token-free Selective State Space Model

Cornell的论文,作者发现mamba架构对于byte modeling建模能力很好。这个是指不用tokenizer,直接对于char进行建模:总体sequence长,词表小。正好mamba对于长文本的建模复杂度是nlogn