0%

2024-02-21-insights

发表于 2024-02-26 更新于 2024-02-28 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 661 阅读时长 ≈ 1 分钟

Large Language Model-based Human-Agent Collaboration for Complex Task Solving

推荐我们组的工作：在现实场景中Agent往往难以解决复杂的问题，在这种情况更重要的问题是如何让Agent和human进行协同工作。然而，另一个极端就是Agent变得非常lazy一直去找人帮忙。因此，我们需要的是Agent自己决定在最需要的时候联系human。作者设计来一套RL-based框架对这个问题做了初步的探索，并取得了较为不错的结果

Instruction-tuned Language Models are Better Knowledge Learners

这篇的逻辑和下面那个GLAN有点像：作者认为下游任务中我们往往希望类QA的chat形式，然而在continue pretrain阶段的数据往往是非QA的格式，这就造成了知识与使用的mismatch。因此，作者尝试了，能不能先学会QA再学知识呢？

作者发现，这种形式的模型可以对continue pretrain阶段的数据有更好的掌握

Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

作者认为，人类世界的知识和能力天生是具有层次结构的，如果我们在instruction tuning阶段想要让模型学会follow指令并且补充世界知识，那么能不能用类似课程学习的方法，先把知识进行层次化归纳，再根据刚才归纳的知识来生成对应QA-pair