2025-10-09-insights

发表于 2025-10-11 更新于 2025-10-17 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 221 阅读时长 ≈ 1 分钟

The Markovian Thinker

这篇工作名字很玄乎，其实做起来很简单：让正常的long-cot模型区分“chunk”（一些token）。每次到chunk结束时，把think清空，只保留前一个问题和前一个chunk结尾的一些token接着推理，这样context会永远不”爆“。但是直接这么应用，显然模型会表现很烂，所以作者做了rl

这个和之前google那个，parallel cot然后直接拼context的工作，是不是可以连在一起rl？