2024-12-04-insights

发表于 2024-12-05 更新于 2024-12-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 587 阅读时长 ≈ 1 分钟

最近把读过的所有论文重新整理分类了一遍，在o1出来以后，之前prompt、reasoning、prm、sefl-training这些工作看起来得按照新的逻辑去分类了

Optimizing Latent Goal by Learning from Trajectory Preference

一篇Minecraft agent的工作，作者提了有趣的观点：很多时候任务做不好，不是因为policy不够好，而是因为没有理解instruction的内容。换句话说，用prompt tuning的方法就能提分。作者想到，能不能解耦开policy和instruction embedding呢？有一个专门的instruction following层可以把自然语言instruction翻译成instruction embedding，再去执行embedding。微调时只tune前面那个层。发现在下游任务上，和全参数微调效果差不多

作者这个建模方式是把他理解成单轮，其实我感觉是不是可以把这个建模成多轮，在agent执行任务前可以用一个小对话组织整个instruction，这样模型有权利自己问一些问题给用户。这个领域，之前有一篇叫star-gate（STaR-GATE: Teaching Language Models to Ask Clarifying Questions）的工作，我一直挺喜欢的……好像没啥人follow