2024-04-09-insights

最近我在筹划一篇笔记，大致内容是 CogAgent、AutoWebGLM、Ferret-UI，估计这周的某一天写完吧。还有两个备选：

Retro、Realm、KNN-LM，讲讲RAG
Switch-Transformer、deepseek-MoE、MoE-mamba、topp-MoE，讲讲MoE

不知道大家觉得哪个好

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

既MM1之后，apple继续发力。这次是GUI-Agent。作者训练了一个VLM模型，可以操作手机。把一大堆ui-related任务整合成了sft的形式，然后训到了一个模型里，效果超过了GPT-4v

期待WWDC

Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models

作者发现，MoE训练的时候也是激活router然后选择前topk，这样训练其实并不高效，因为所有的expert参数仍然是需要加载的。能不能训练的时候取topk里的k是无穷，然后预测的时候再使用topk=2。作者发现这样训练是非常参数高效的，关键是，效果还很好

只能说，确实

Context versus Prior Knowledge in Language Models

在模型的预测中，既会参考参数内的知识，也会参考context中给定的info。作者探索了，能不能更确切的测量出模型到底在参考parameteric knowledge还是context knowledge? 作者设计了基于matual information的计算指标 susceptibility和persuasion，可以更好地探测模型生成过程中的依赖性。

这篇和昨天那篇"quote"研究的东西有点像，我觉得以后的模型最好可以对于生成的每一句话都有理可依，说出来是参考了训练数据中的xxx，还是context中的yyy。

这样别人用模型的时候也放心……最起码可以看看是不是hallicination