2025-06-27-insights 发表于 2025-06-29 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 147 阅读时长 ≈ 1 分钟 Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge 之前出了mind2web-live,online-mind2web,到今天进化到mind2web 2了。作者搞了更难的题目,但没有eazy-to-verify的性质,而是让llm judge。 相关文章 本月更新(Recent Update) arxiv-insights 2025-06-26-insights 2025-06-25-insights 2025-06-24-insights