Proposer-Agent-Evaluator (PAE): Autonomous Skill Discovery for Foundation Model Internet Agents
这篇工作在探索Web Agent能不能自己在网站上浏览,然后自己产生一些query去完成,再让Agent判断完成度。这样在没有外界反馈的情况下去自我迭代。
Mastering Board Games by External and Internal Planning with Language Models
deepmind的一篇工作,真的在研究LLM能不能下棋。然后探索在context中做mcts,和有外置的mcts存储的两种情况。发现在sft以后,LLM下棋好像还可以