2025-11-05-insights 发表于 2025-11-09 更新于 2025-11-11 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 204 阅读时长 ≈ 1 分钟 Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation 这篇工作挺有趣的:作者发现multiagent,尤其是rl训练的multiagent,会出现严重的不对等问题,所有agent都退化了,最后只有一个agent在说话,别人围观。作者设计了一些方案来缓解这个问题 agent领域的MoE rebalance loss... 相关文章 本月更新(Recent Update) arxiv-insights 2025-11-07-insights 2025-11-06-insights 2025-11-04-insights