随缘随笔
Insights Flow
首页(Home Page)
关于(About me)
Arxiv Insights
top-viewed
所有笔记(All Blogs)
Show only English blogs
搜索(Blog Search)
0%
post-train
标签
2025
12-14
学习笔记:ppo,deepseek ppo和reinforce loss的异同,以及不同形式loss对lm_head层梯度的影响和数值稳定性