2023-11-01-insights 发表于 2023-11-01 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 179 阅读时长 ≈ 1 分钟 The Impact of Depth and Width on Transformer Language Model Generalization deepmind的论文,只解决一个很明确的问题:对于语言建模能力,到底是宽而扁的模型更好,还是深而窄的模型更好。作者做了一系列对比实验,通过各种方法,发现深而窄的模型表现相对更好一些。 很有趣的问题,很有趣的实验设计,很有趣的论文。 相关文章 本月更新(Recent Update) arxiv-insights 2024-11-21-insights 2024-11-20-insights 2024-11-19-insights