随缘随笔 <br> Insights Flow

2023-5-6总结

发表于 2023-05-06 更新于 2024-08-09 分类于随笔阅读次数： Valine：
本文字数： 827 阅读时长 ≈ 1 分钟

好久没写随笔了，今天一写突然发现好像博客快要更新一年了。这下子随笔的标题得把年份加上，和往年的时间加以区别了。笑死，让我想起了"千年虫"事件。这下我的博客要发生”一年虫“危机了。

千年虫：曾经的计算机使用2位十进制数计年，所以到了横跨世纪的时候就会报错

发表于 2023-05-05 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 2.4k 阅读时长 ≈ 2 分钟

前两天看论文解释了emergent ability的出现原因猜想和复现，论文主要表达”涌现“没什么复杂的。我也聊聊我的看法。

发表于 2023-04-15 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 5.4k 阅读时长 ≈ 5 分钟

之前看了阿西莫夫的小说《最后的问题》，里面讲到了宇宙里最令人绝望的定律”熵增定律“。今天讲讲人工智能领域最让人绝望的规律”emergent abilities“，在结合最优传输说说我对这个现象的理解，最后聊几个有趣的话题。参考：

Emergent Abilities of Large Language Models

Can LLMs Critique and Iterate on Their Own Outputs?

压缩下一个token通向超过人类的智能

发表于 2023-04-12 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 6.1k 阅读时长 ≈ 6 分钟

今天讲一篇很有意思的论文，如果让25个GPT假装NPC在游戏里自由生活、交流、发展会怎么样呢？

发表于 2023-04-11 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 6.9k 阅读时长 ≈ 6 分钟

今天讲讲强化学习里的经典算法PPO，也是现在Gym库里默认的强化学习算法，最后再讲讲RLHF中的PPO算法是怎么算的。参考

Proximal Policy Optimization Algorithms

Trust Region Policy Optimization

A (Long) peek into Reinforcement Learning

发表于 2023-03-20 更新于 2024-12-15 分类于论文阅读笔记阅读次数： Valine：
本文字数： 2.3k 阅读时长 ≈ 2 分钟

今天来讲一个和方法toolformer很像的文章：如何让模型左脚踩右脚学会做题？

发表于 2023-03-17 更新于 2024-08-09 分类于随笔阅读次数： Valine：
本文字数： 770 阅读时长 ≈ 1 分钟

转眼又是一周过去了，时间过得越来越快了。今天被同学提醒：开学已经第四周了，感觉好像才开学一样。

发表于 2023-03-15 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 4.5k 阅读时长 ≈ 4 分钟

今天openAI发布了GPT-4。直接把PaLM卷到开放API了，相信google是真的被卷麻了。

GPT4附赠了一个98页的报告(没有论文)，报告前面是性能和应用报告，中间是一些附录，最后是技术报告。我就按顺序来给大家讲讲，先讲应用报告。相信很多公众号大概都吹了一波GPT4，我希望我的讲解可以更深入一些，把问题、难点和领域更多地呈现给大家。

发表于 2023-03-14 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 2.2k 阅读时长 ≈ 2 分钟

上次讲了多模态大模型，今天讲另一个有意思的大模型工作：toolformer——如何让大模型自己学会去使用工具。在使用工具的情况下， 6.7B的GPT J效果远胜175B的GPT 3.5

发表于 2023-03-04 更新于 2024-08-09 分类于随笔阅读次数： Valine：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

过完新年，时间过去不长，没想到NLP领域却出现了新的风暴——ChatGPT(GPT-3.5-turbo)。ChatGPT自身是instructGPT+GPT3.5的结合体，大概在去年12月，就是我得新冠那时候推出。我记得我当时还顶着高烧听n+e学长做分享，但没想到后来会到火出圈的程度。