Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space
一篇 soft thinking 领域的文章。就是说,在 o1-model 里,如果输出的不是一个 token,而是直接拼一个 embedding 到下一层的输入(而不是 logits 最大的 token 的 word embedding),效果会更好吗?直觉上肯定更好,因为没人证明在词表空间里想问题是好事,人大概率思考过程也不是文本,但这个领域就是不 work。
这篇工作里,作者想了个怪招:先不一步子迈到直接拼 embedding,先试试把概率最大的一些 token,根据概率加权后的 word embedding 拼回去(有点像是在 word embedding 空间对 hidden state 做了个奇异值逼进,假设正交的话)。
这是我见过的类似文章里名字起得最好听的,所以我决定以后都叫这个方向 soft thinking 了。我怀疑这个是 AI 领域下一个重大突破,下一个怀疑是 openAI / SSI 先搞出来……
Reinforcement Learning from User Feedback
meta 的工作,作者还是研究了那个老问题:能不能从真实世界的多轮对话的 user-response 里,提取到对模型回复水平的 reward?但区别是,作者不在 toy setting,而是直接在 realworld setting 上做。训了一个二元分类器,对用户回复进行分类(作者把好回复叫做 love response)。在做了 rl 以后,在 A/B test 上,提升了 28% 的 love-response 比例。同时,作者发现了一部分的 reward hacking 现象
字节看了最熟悉的一集…… 所以,用户是真的可以被 hack 的吗(如果高兴你就拍拍手?)
v1.5.2