0%

2024-12-18-insights

发表于 2024-12-19 更新于 2024-12-24 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 311 阅读时长 ≈ 1 分钟

Proposer-Agent-Evaluator (PAE): Autonomous Skill Discovery for Foundation Model Internet Agents

这篇工作在探索Web Agent能不能自己在网站上浏览，然后自己产生一些query去完成，再让Agent判断完成度。这样在没有外界反馈的情况下去自我迭代。

Mastering Board Games by External and Internal Planning with Language Models

deepmind的一篇工作，真的在研究LLM能不能下棋。然后探索在context中做mcts，和有外置的mcts存储的两种情况。发现在sft以后，LLM下棋好像还可以