2025-05-16-insights

发表于 2025-05-16 更新于 2025-05-26 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 353 阅读时长 ≈ 1 分钟

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

meta的grm工作。作者希望用rl去训练模型打分的能力，因此把一些具有function verifier的题和没有function

这篇deepmind的工作讲了两个概念，非常深刻：

作者发现这两个能力是没法一起优化的。比如说：一只老鼠在迷宫左区，能通过灯光信号学习环境规律（高可塑性），但无法控制灯光开关（低赋权）。同一只老鼠在迷宫右区，如果能完全控制灯光（高赋权），就无法从固定环境中学习新信息（低可塑性）。