0%

2025-04-28-insights

Scaling Laws For Scalable Oversight

这篇工作中,作者探索了弱模型监督强模型的效果,作者发现。如果把智能等级用elo(chatbotarena)表示的话,监督的难度会随着分差变大而变大,在400分差时,监督已经变得非常困难。

我没太看懂这个文章,不过感觉还挺有趣的,自从openai提了这个问题,好像follow up的工作并不大