2025-04-17-insights

发表于 2025-04-17 更新于 2025-04-29 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 266 阅读时长 ≈ 1 分钟

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

推荐一下工友的工作。大家都在等待agent end2end rl起飞，这里迈出了第一步：如果在数学题中可以写代码，能不能训练出长thought呢？作者发现，在有一个工具的setting下，是可以做出正收益，让thought长度健康增长的。

其实这个方向并不新，几年前就一直有人做了，但是gsm8k。在aime级别题目、10k reasoning budget这个scaling尺度下，我印象中应该只有deep research有过正收益了