MagicLens : Self-Supervised Image Retrieval with Open-Ended Instructions
Deepmind 的论文:image retrieve 任务是输入一个原始 image 和一个 query,寻找一个最符合的目标图片,这个任务目前的效果并不好。作者想了一个很好的归纳偏置:在一个 web page 里的多个图片天然有一些相关性。作者于是找了一大堆 web,抽取了里面所有的图片,然后让另一个 LLM 生成对饮的 (source-query-target) 对,在 36M 数据上训练以后,达到了 SOTA 水平。关键是,比之前的 SOTA,模型小 50 倍
又是很多天才能见到一次的感叹神奇思路的论文
STaR-GATE: Teaching Language Models to Ask Clarifying Questions
Goodman 的论文:作者发现 human 来找模型完成任务时往往受到很多 unknown preference 的影响 (比如素食主义者),模型主动问一些好的问题会有很大的帮助。所以作者设计了一套 self-train 的框架:
- 有一个 user、一个 agent,user 有个对 agent 不可见的偏好描述 text
- 让一个 orcale 模型看到所有偏好后对问题做出回答 oracle-response
- 让 agent 用 rl 的方式问问题,然后 user 回答。这个问题的 reward 就是 agent 可以后面回答出 oracle-response 的概率
通过这个方法,agent 实际需要学会在所有场景下,尽可能问出最重要的问题
这个是前几月那个 eliciting human preference 的后文,很 "STaR" 的工作
TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios
唐杰老师的文章,有点类似之前 google 那篇论文,也是在 csv excel 等 table 任务上标了数据训了模型,作者用 NL 和 program-of-thought 分别解决问题,用答案的一致性作为交叉验证,由此可以针对一个问题生成两种 trace 作为训练数据。
v1.5.2