2024-06-21-insights

发表于 2024-06-24 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 628 阅读时长 ≈ 1 分钟

Investigating Mysteries of CoT-Augmented Distillation

如果大家还记得我在Manyshot-ICL阅读笔记里讲到的关于reasoning-anchor的讨论，今天有个工作发现了类似的现象：他们研究了带有CoT标注的数据集的finetune，发现把CoT chain放在answer后面实际上会让下游任务表现变得更好。而且，其实CoT trace是错误的可能也没有这么敏感，关键是提到几个关键词。

Identifying User Goals from UI Trajectories

google做得非常有趣的工作，作者发现对于GUI Agent来说，基本都能和用户一起再电脑上“结对编程”。那么Agent能不能主动发现用户面临了什么困难、进而去提供帮助呢？

作者在Gemini、gpt上做了实验，发现还行，但效果没human好。

我感觉这才是GUI Agent该研究的方向

Instruction Pre-Training: Language Models are Supervised Multitask Learners

Furu Wei的工作，作者发现instruction Tuning先找到任务再找标注，效果好，但是数据很难scaling。如果自顶向下呢？先从预训练数据集里找到instruction和response，再和原始语料丢到一起pretrain。作者发现这样效果很好，搞了400M的pair以后，llama3-8B超过了llama-70B