
很久没更新了,今天来讲讲我们组最近发布的工作ToolLLM(ToolBench/ToolLlama)。看看在多步工具学习场景下,Llama用多少数据就能训练出ChatGPT的效果
本来想写 Self-Consuming Generative Models Go MAD , 结果突然发现被苏老师抢发了,那就换一篇。
来讲讲软院去年ICML的Flowformer:如果把流图的思想引入到Attention算子中来。
这篇游神在知乎讲过一遍,我来主要分享一下在设计结构时我觉得比较好的一些思想,以及我对于线性attention的一些看法。
如何仅用1000步训练(0.01%资源)就将一个在2k context长度上训练的预训练模型的上下文窗口拓展到32k
我其实不想讲这篇,因为我觉得苏剑林老师肯定会讲,并且讲的比我好,但是感觉这个方法还是很有研究价值的,因此分享给大家……
好长时间没写论文阅读笔记了,今天读一下LeCun讲了一年的"世界模型":新的训练范式、训练快、参数少(0.6B)、效果好、方法简单、概念明确。
我在讲解时会说一些我的思路,因此我里面提到的一些优点、缺点有一些不是论文里说的是我自己的观点,完整故事逻辑大家可以去看原论文,论文写得很好。