0%

2025-06-27-insights

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

之前出了mind2web-live,online-mind2web,到今天进化到mind2web 2了。作者搞了更难的题目,但没有eazy-to-verify的性质,而是让llm judge。