0%

2024-08-29-insights

WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback

这篇论文瞄准了一个挺有意思的领域:在LLM上线以后,用户会和模型一直交流,用户不会帮公司点赞或者踩的按钮,而是会有文本的反馈。人类的反馈可以看做一种隐式的、带噪的对response的feedback。作者探索了是否有可能直接从这种反馈里面增强LLM能力。

前几个月有个工作,想的是能不能把人类反馈做extract and refine变成正常的feedback。当时发现30%的人类response有潜力变成反馈