2024-09-04-insights

今天足足有169篇工作，昨天是劳工节放假，所以今天是放假 + 周二的联合

Pre-Training Multimodal Hallucination Detectors with Corrupted Grounding Data

Scale AI的工作，有趣的思路：作者认为，已有的幻觉检测方法大多是paragraph-level，说出来一整段有没有幻觉，作者想要在span-level做检测。所以作者反向构造数据：先找到一个对的数据，在所有grounding位置让LLM给出流畅的paraphrase，然后替换变成负样本。

Learning to Ask: When LLMs Meet Unclear Instruction

挺有趣的工作，作者认为：在真实场景中，用户的instruction往往有歧义、或者不明确，模型应该正确地发现歧义，或者主动在任务进程中问用户相关的信息。作者探索了在tool场景中模型能否获得这个能力

有点像组里师弟做的"tell me more"，今年的ACL工作

Training on the Benchmark Is Not All You Need

一篇检测各大公司是否把benchmark数据偷偷训进去的工作，作者的思路挺简单：瞄准多选题场景。作者觉得，如果没训进去，那选项不管怎么排布都应该概率一样。所以作者把n个选项生成了n!个变体，所有选项顺序打乱，观察模型的ppl，如果原始题目顺序的ppl是所有变体里最低的，那么就会危险。作者用这个方法观察了32个LLM，发现qwen系列的表现最为反常

只能说……难说

CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation

这篇工作有点像是mammoth2从预训练数据集中自底向上合成数据，但又不完全是：他是先找一个task，根据这个task找到最接近的free-text，然后让一个模型过来refine。所以没有最前面的fastext环节

如果一定要找的话，我觉得最像的是neubig在扩展instruction tuning数据方面的一个工作Better Synthetic Data by Retrieving and Transforming Existing Datasets……如果大家还记得我四月份推过这篇的话