2024-08-14-insights

发表于 2024-08-17 更新于 2024-08-20 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 289 阅读时长 ≈ 1 分钟

这周论文好像总体都不多，大家是不是开ACL去了兴致缺缺

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

唐杰老师的文章，立足点很好：作者发现目前的模型虽然input length达到了100k，但是输出长度几乎都是最大2k。作者设计了一套agent pipeline，可以把要求长输出的input变成多个subtask，然后合成出来很长的输出数据。作者用这个方法构造了6000条输出的SFT数据，让模型学会了输出10000 token的能力

这个问题，似乎几年前叫做explosure bias。现在好像没人提了……