2024-01-01-insights

发表于 2024-01-01 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 273 阅读时长 ≈ 1 分钟

元旦第一天，论文不多，找到这一篇

还有一篇: MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining是个demo论文，作者搞了一个优化加速版的训BERT的框架，算是弱推吧

Structured Packing in LLM Training Improves Long Context Utilization

作者认为，长文本领域现在做不好，某种程度上是因为预训练的语料没有长程的依赖关系。作者尝试把训练数据重新组织，把相似的数据拼在一起(而不是随机拼)，认为模型可能可以从中自动学习到一些长程的依赖关系。