Investigating Mysteries of CoT-Augmented Distillation
如果大家还记得我在 Manyshot-ICL 阅读笔记里讲到的关于 reasoning-anchor 的讨论,今天有个工作发现了类似的现象:他们研究了带有 CoT 标注的数据集的 finetune,发现把 CoT chain 放在 answer 后面实际上会让下游任务表现变得更好。而且,其实 CoT trace 是错误的可能也没有这么敏感,关键是提到几个关键词。
Identifying User Goals from UI Trajectories
google 做得非常有趣的工作,作者发现对于 GUI Agent 来说,基本都能和用户一起再电脑上 “结对编程”。那么 Agent 能不能主动发现用户面临了什么困难、进而去提供帮助呢?
作者在 Gemini、gpt 上做了实验,发现还行,但效果没 human 好。
我感觉这才是 GUI Agent 该研究的方向
Instruction Pre-Training: Language Models are Supervised Multitask Learners
Furu Wei 的工作,作者发现 instruction Tuning 先找到任务再找标注,效果好,但是数据很难 scaling。如果自顶向下呢?先从预训练数据集里找到 instruction 和 response,再和原始语料丢到一起 pretrain。作者发现这样效果很好,搞了 400M 的 pair 以后,llama3-8B 超过了 llama-70B
v1.5.2