随缘随笔
Insights Flow
首页(Home Page)
关于(About me)
Arxiv Insights
top-viewed
所有笔记(All Blogs)
Show only English blogs
搜索(Blog Search)
0%
强化学习
标签
2023
05-10
论文阅读[精读]-RRHF: Rank Responses to Align Language Models with Human Feedback without tears
04-11
论文阅读[粗读]-强化学习和RLHF中的PPO算法