0%

2025-03-26-insights

Scaling Laws of Synthetic Data for Language Models

最近蛮少见 scaling law 的工作了,可能是都被公司挖走默默搞去了。作者研究的问题是,模型在合成数据上训练,效果什么时候会收敛?大致结论是,合成数据的效果收益来源于另一个 scaling 曲线,看起来更平缓。然后越大的模型,需要越多的合成数据

一年多前,大家还觉得合成数据训练会 “疯牛病”,后来发现是数据质量太差,现在又开始研究起 scaling law 了。所以,认知都是会随着时间的发展而改变的呀

Gemma 3 Technical Report

gemma3 带着他 10 行的作者名单来了,是的,还有 400M 的 vision encoder…… 能不能把前几天那个 1B 的原生双模态合版进来

话说现在的端侧模型已经涨到 27B 了吗。

ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

最近有一些做 o1 + deep-research 的工作,这篇算是看着比较顺眼的。作者行文有点致敬老前辈 r1,然后就是在 grpo 里添加了一个 search 的 action,揉在一起训练。把分摁上去了

话说 deep research 里其实还能写代码来着…… 大家好像对这个都视而不见了

Powered By Valine
v1.5.2