一直等李沐老师的视频没等到,那今天我就来为大家讲讲目前最强的开源模型:LLaMA 2。
从Flowformer探讨Attention的线性复杂度
本来想写 Self-Consuming Generative Models Go MAD , 结果突然发现被苏老师抢发了,那就换一篇。
来讲讲软院去年ICML的Flowformer:如果把流图的思想引入到Attention算子中来。
这篇游神在知乎讲过一遍,我来主要分享一下在设计结构时我觉得比较好的一些思想,以及我对于线性attention的一些看法。
论文阅读[粗读]-Meta-Transformer: A Unified Framework for Multimodal Learning
今天来看一篇的新作,如何在不用模态对数据的情况下,炼多模态模型?甚至效果还行?
论文阅读[粗读]-Retentive Network: A Successor to Transformer for Large Language Models
今天来讲讲被称为transformer "后继有模"的retentive network网络:速度更快、占用更少、效果更好。
论文阅读[精读]-Let’s Verify Step by Step
今天聊聊OpenAI 5月份发的一篇老论文:过程监督。这个说法是针对RLHF等技术的结果评价来讲的。他们使用过程监督的GPT4,在数学数据集上极大程度地战胜了结果监督的GPT4
论文阅读[粗读]-Extending Context Window of Large Language Models via Position Interpolation
如何仅用1000步训练(0.01%资源)就将一个在2k context长度上训练的预训练模型的上下文窗口拓展到32k
我其实不想讲这篇,因为我觉得苏剑林老师肯定会讲,并且讲的比我好,但是感觉这个方法还是很有研究价值的,因此分享给大家……
本科毕业感想
论文阅读[粗读]-Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
好长时间没写论文阅读笔记了,今天读一下LeCun讲了一年的"世界模型":新的训练范式、训练快、参数少(0.6B)、效果好、方法简单、概念明确。
我在讲解时会说一些我的思路,因此我里面提到的一些优点、缺点有一些不是论文里说的是我自己的观点,完整故事逻辑大家可以去看原论文,论文写得很好。
论文阅读[精读]-RRHF: Rank Responses to Align Language Models with Human Feedback without tears
论文介绍了一个非常简单的RLHF中PPO的替代品,昨天听了作者的报告,今天来仔细读读。我认为它的思路和calibration有一定的关系。
2023-5-6总结
好久没写随笔了,今天一写突然发现好像博客快要更新一年了。这下子随笔的标题得把年份加上,和往年的时间加以区别了。笑死,让我想起了"千年虫"事件。这下我的博客要发生”一年虫“危机了。
千年虫:曾经的计算机使用2位十进制数计年,所以到了横跨世纪的时候就会报错