2024-08-29-insights

发表于 2024-08-29 更新于 2024-09-05 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 266 阅读时长 ≈ 1 分钟

WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback

这篇论文瞄准了一个挺有意思的领域：在LLM上线以后，用户会和模型一直交流，用户不会帮公司点赞或者踩的按钮，而是会有文本的反馈。人类的反馈可以看做一种隐式的、带噪的对response的feedback。作者探索了是否有可能直接从这种反馈里面增强LLM能力。

前几个月有个工作，想的是能不能把人类反馈做extract and refine变成正常的feedback。当时发现30%的人类response有潜力变成反馈