0%

2024-10-17-insights

MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router

挺好玩的工作。在 MoE prune 领域,作者发现:已有的 MoE 都是 router 算出来一个专家一个得分,然后把得分前两名的专家 embedding 拿来,按照 router 得分做加权平均。如果专家本身是可以线性叠加的,那我直接把专家的权重按照 router 得分线性叠加,把一堆专家变成一个专家会怎样。作者在 mixtral 上试了试,发现效果出奇的好。

Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective

如果只看 CL track,估计就没有这篇论文了。最近有些生成理解统一架构的工作出来,这篇工作更聚焦一些,关注了 transformer 架构做图片生成。作者把 LDM 等 latent space 训练稳定的方法归因到了 latent space 本身稳定性上。由此魔改了一番 transformer,发现效果神奇地挺好

Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance

推荐哥们的工作,其实做了挺久了。作者提到一个问题:目前的 agent 都是接收式的,下达一个指令,完成一个指令。但在真实世界中,模型如果和人共享一个 context,那模型有没有能力直接想到人会有的需求呢?作者标注了 6000 多数据,让人 verify 了可能的任务,然后对应训练了 reward model。最终在测试集上,发现训练出来的 proactive model 有 F1 66% 的可能提到和人类一样的 query

copilot 变 pilot 了

sofa
Powered By Valine
v1.5.2