随缘随笔 <br> Insights Flow

0%

论文阅读[粗读]-TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS

发表于 2023-09-25 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 4.5k 阅读时长 ≈ 4 分钟

很久没更新了，今天来讲讲我们组最近发布的工作ToolLLM(ToolBench/ToolLlama)。看看在多步工具学习场景下，Llama用多少数据就能训练出ChatGPT的效果

阅读全文 »

论文阅读[精读]-Llama 2: Open Foundation and Fine-Tuned Chat Models(下)

发表于 2023-08-05 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 3k 阅读时长 ≈ 3 分钟

今天继续讲，训练Llama2-Chat模型的方法和创新点

阅读全文 »

论文阅读[精读]-Llama 2: Open Foundation and Fine-Tuned Chat Models(上)

发表于 2023-07-31 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 2.1k 阅读时长 ≈ 2 分钟

一直等李沐老师的视频没等到，那今天我就来为大家讲讲目前最强的开源模型：LLaMA 2。

阅读全文 »

从Flowformer探讨Attention的线性复杂度

发表于 2023-07-29 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

本来想写 Self-Consuming Generative Models Go MAD , 结果突然发现被苏老师抢发了，那就换一篇。

来讲讲软院去年ICML的Flowformer：如果把流图的思想引入到Attention算子中来。

这篇游神在知乎讲过一遍，我来主要分享一下在设计结构时我觉得比较好的一些思想，以及我对于线性attention的一些看法。

阅读全文 »

论文阅读[粗读]-Meta-Transformer: A Unified Framework for Multimodal Learning

发表于 2023-07-23 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 1.9k 阅读时长 ≈ 2 分钟

今天来看一篇的新作，如何在不用模态对数据的情况下，炼多模态模型？甚至效果还行？

阅读全文 »

论文阅读[粗读]-Retentive Network: A Successor to Transformer for Large Language Models

发表于 2023-07-20 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

今天来讲讲被称为transformer “后继有模”的retentive network网络：速度更快、占用更少、效果更好。

阅读全文 »

论文阅读[精读]-Let’s Verify Step by Step

发表于 2023-07-05 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 4k 阅读时长 ≈ 4 分钟

今天聊聊OpenAI 5月份发的一篇老论文：过程监督。这个说法是针对RLHF等技术的结果评价来讲的。他们使用过程监督的GPT4，在数学数据集上极大程度地战胜了结果监督的GPT4

阅读全文 »

论文阅读[粗读]-Extending Context Window of Large Language Models via Position Interpolation

发表于 2023-06-30 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 879 阅读时长 ≈ 1 分钟

如何仅用1000步训练(0.01%资源)就将一个在2k context长度上训练的预训练模型的上下文窗口拓展到32k

我其实不想讲这篇，因为我觉得苏剑林老师肯定会讲，并且讲的比我好，但是感觉这个方法还是很有研究价值的，因此分享给大家……

阅读全文 »

本科毕业感想

发表于 2023-06-28 更新于 2024-08-09 分类于随笔阅读次数： Valine：
本文字数： 2.3k 阅读时长 ≈ 2 分钟

不知不觉就毕业了。

阅读全文 »

论文阅读[粗读]-Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

发表于 2023-06-16 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 3.2k 阅读时长 ≈ 3 分钟

好长时间没写论文阅读笔记了，今天读一下LeCun讲了一年的”世界模型”：新的训练范式、训练快、参数少(0.6B)、效果好、方法简单、概念明确。

我在讲解时会说一些我的思路，因此我里面提到的一些优点、缺点有一些不是论文里说的是我自己的观点，完整故事逻辑大家可以去看原论文，论文写得很好。

阅读全文 »