2024-01-08-insights

发表于 2024-01-08 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 164 阅读时长 ≈ 1 分钟

不知不觉200引了，真是指数增长呀。

DeepSeek LLM Scaling Open-Source Language Models with Longtermism

作者基于deepseek 7B和67B开展了大规模的scaling实验。探索了很多的性质，这些结果估计对于学界是有很大意义的。我不太确定之前有没有scaling实验做到这个规模的