0%

2024-05-27-insights

发现好多天没更新阅读笔记了,写一个 manyshot ICL 的笔记吧:最近看到的论文里最有意思的一篇

DEEM: Diffusion Models Serve as the EyEs of Large Language Models for Image Perception

有趣的思路:作者在思考目前的 VLM 做不好是不是因为这种 "llava 系" 模型架构设计里面 image encoder 的损失比较大,所以作者想要直接调整 image encoder 的效果。作者构造了一种类似 re-consturction 的思路:把 image encoder 的 embedding 丢给一个图片解码模型,从解码出目标图片的 loss 里反馈 image embedding 的梯度反过来优化 image encoder。通过这种 "reverse" 的思路,减少了 VLM 的 hallucination

感觉有点奇怪…… 有点像是 andrew 前几天那个的在 embedding 层加 CLIP loss 思路的对偶版本

Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

grokking 领域的论文,好久没关注这个方向了。这个方向讲的东西是,随着训练量加大,在训练集早就已经过拟合的情况下,模型在测试集的表现会不会逐步上升、或者突变,Ilya 曾经研究过这个。今天这篇论文讲的是 transformer reasoning 这个领域会不会存在 grokking 的性质。作者在合成的场景下验证了这个事情。

有没有试着再更泛的 agent 任务上试验一下?

Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

Jie Fu 的论文,最近怎么好多这种 "a closer look at..." 格式。作者聚焦于用小模型启动训练一个大模型这个研究方向,分析了目前方法的的主要瓶颈,同时提出了一个新的 Gstack 算子,从 scaling 的角度分析他对于不同大小、不同训练量的模型都效果不错

Powered By Valine
v1.5.2