2025-05-22-insights

Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

一篇soft thinking领域的文章。就是说，在o1-model里，如果输出的不是一个token，而是直接拼一个embedding到下一层的输入（而不是logits最大的token的word embedding），效果会更好吗？直觉上肯定更好，因为没人证明在词表空间里想问题是好事，人大概率思考过程也不是文本，但这个领域就是不work。

这篇工作里，作者想了个怪招：先不一步子迈到直接拼embedding，先试试把概率最大的一些token，根据概率加权后的word embedding拼回去（有点像是在word embedding空间对hidden state做了个奇异值逼进，假设正交的话）。

这是我见过的类似文章里名字起得最好听的，所以我决定以后都叫这个方向soft thinking了。我怀疑这个是AI领域下一个重大突破，下一个怀疑是openAI / SSI 先搞出来……

Reinforcement Learning from User Feedback

meta的工作，作者还是研究了那个老问题：能不能从真实世界的多轮对话的user-response里，提取到对模型回复水平的reward？但区别是，作者不在toy setting，而是直接在realworld setting上做。训了一个二元分类器，对用户回复进行分类（作者把好回复叫做love response）。在做了rl以后，在A/B test上，提升了28%的love-response比例。同时，作者发现了一部分的reward hacking现象

字节看了最熟悉的一集……所以，用户是真的可以被hack的吗（如果高兴你就拍拍手？）