2024-10-17-insights

MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router

挺好玩的工作。在MoE prune领域，作者发现：已有的MoE都是router算出来一个专家一个得分，然后把得分前两名的专家embedding拿来，按照router得分做加权平均。如果专家本身是可以线性叠加的，那我直接把专家的权重按照router得分线性叠加，把一堆专家变成一个专家会怎样。作者在mixtral上试了试，发现效果出奇的好。

Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective

如果只看CL track，估计就没有这篇论文了。最近有些生成理解统一架构的工作出来，这篇工作更聚焦一些，关注了transformer架构做图片生成。作者把LDM等latent space训练稳定的方法归因到了latent space本身稳定性上。由此魔改了一番transformer，发现效果神奇地挺好

Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance

推荐哥们的工作，其实做了挺久了。作者提到一个问题：目前的agent都是接收式的，下达一个指令，完成一个指令。但在真实世界中，模型如果和人共享一个context，那模型有没有能力直接想到人会有的需求呢？作者标注了6000多数据，让人verify了可能的任务，然后对应训练了reward model。最终在测试集上，发现训练出来的proactive model有F1 66%的可能提到和人类一样的query

copilot变pilot了