标签: 强化学习 | 随缘随笔 <br> Insights Flow

0%

强化学习标签

2025

12-14

学习笔记：ppo，deepseek ppo和reinforce loss的异同，以及不同形式loss对lm_head层梯度的影响和数值稳定性

09-27

Synthetic, Paraphrase, Explain or Predict? 会比Pretrain+RL更优雅吗

2024

12-14

重读STaR，与o1随想

2023

05-10

论文阅读[精读]-RRHF: Rank Responses to Align Language Models with Human Feedback without tears

04-11

论文阅读[粗读]-强化学习和RLHF中的PPO算法