0%

2025-10-09-insights

The Markovian Thinker

这篇工作名字很玄乎,其实做起来很简单:让正常的long-cot模型区分“chunk”(一些token)。每次到chunk结束时,把think清空,只保留前一个问题和前一个chunk结尾的一些token接着推理,这样context会永远不”爆“。但是直接这么应用,显然模型会表现很烂,所以作者做了rl

这个和之前google那个,parallel cot然后直接拼context的工作,是不是可以连在一起rl?