0%

2025-08-06-insights

SELF-QUESTIONING LANGUAGE MODELS

作者提了个比较有趣的训练范式:让一个出题模型出题,然后自己做几遍。通过⬇️所示的方法给双方做rl打分

感觉思路还挺有意思的,就是做的场景有点简单。用rl给出题模型做迭代,是一个很新的东西