2025-04-30-insights

发表于 2025-05-01 更新于 2025-05-08 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 399 阅读时长 ≈ 1 分钟

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

一篇agent rl方向的论文，写得有点零零散散，但大概覆盖到了多轮react形式的训练，以及里面的loss trick，感觉还是挺不错的

一篇见解深刻的文章，作者分析了一个问题：chatbotarena都是人类盲选打分，但真的公平吗？作者发现了以下问题：

总体来看，越是大公司，越是有力。openai一家公司享有20%的数据，另外83家开源模型加起来占29%