2024-02-19-insights

发表于 2024-02-22 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 456 阅读时长 ≈ 1 分钟

最近一周去旅游了，回来一看竟然欠了680多篇论文？？？别急，慢慢补……

Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models

SFT的数据选择对结果的影响很大，引入一些不好的SFT数据，反而会使得模型的效果更差。作者认为，数据的质量是数据的固有属性，并尝试用较小的模型选择SFT数据，并发现：即使用350M模型帮13B模型选择数据，效果仍然很好

When is Tree Search Useful for LLM Planning? It Depends on the Discriminator

作者探索了Agent里面的Tree-search和reflection两种方法，发现：只有当外界的反馈准确率超过90%时，Tree-search的能力才能显现出来，目前的LLM-vote基本上没有达到这个水平。所以，目前的Tree-search类方法可能得不偿失，在需要10倍计算量的基础上，提升并不明显。