最近一周去旅游了,回来一看竟然欠了 680 多篇论文???别急,慢慢补……
Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models
SFT 的数据选择对结果的影响很大,引入一些不好的 SFT 数据,反而会使得模型的效果更差。作者认为,数据的质量是数据的固有属性,并尝试用较小的模型选择 SFT 数据,并发现:即使用 350M 模型帮 13B 模型选择数据,效果仍然很好
When is Tree Search Useful for LLM Planning? It Depends on the Discriminator
作者探索了 Agent 里面的 Tree-search 和 reflection 两种方法,发现:只有当外界的反馈准确率超过 90% 时,Tree-search 的能力才能显现出来,目前的 LLM-vote 基本上没有达到这个水平。所以,目前的 Tree-search 类方法可能得不偿失,在需要 10 倍计算量的基础上,提升并不明显。