0%

2024年十月October
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 2 3 4 5
😁😁 😁😁😁 😁😁 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2024年十月October
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(172->4 papers)2(74->1 papers)3(103->3 papers)4(128->6 papers)5
6 7(121->2 papers)8(224->5 papers)9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
阅读全文 »

ICLR的投稿论文质量就是高,感觉逐渐出现了一些看起来像是o1的工作

Learning How Hard to Think: Input-Adaptive Allocation of LM Computation

Jacob Andreas的工作:作者探索了能否根据任务难度动态申请计算空间,然后让模型决定做CoT、self-consistency之类的inference-scaling技术。通过这种方法,可以在保证最优效果的前提下,省下来超过50%的计算资源

Beyond Scalar Reward Model: Learning Generative Judge from Preference Data

liuyiqun老师转型了,去搞post-training了。这次是generative reward model,是说让reward model也是生成式的、CoT的,而不是从human偏序里蒸馏出来的float。虽然不是第一篇,但我很喜欢这个方向,现在看见就转

SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?

我最开始看到这篇工作,还以为是让模型通过键鼠操作vscode来编程……仔细一看是解决多模态的编程问题。作者构建了一个新的bench,输入的问题描述或者testcase里最少有一张图片,需要多模态模型运用多模态能力来理解或者解决问题

阅读全文 »

Frame-Voyager: Learning to Query Frames for Video Large Language Models

字节出的一篇关键帧抽取的工作,是一套以终为始的思路:关键帧抽取是为了更好地进行VQA。那可以先随机抽一大堆关键帧组,然后每个组合都回答一次vqa,根据答案的质量(其实是正确答案的ppl)反过来给出关键帧抽取质量的评价,找出来关键帧抽取方案的正负样本

很聪明!不过它的瓶颈看起来是随机抽到好帧的概率,当视频变长以后,这种方案随机采样到真正好帧的可能性就会下降。

Better Instruction-Following Through Minimum Bayes Risk

Neubig的工作,作者搞了个神奇的方法:大家现在做Post training 的大致方法都是生成一堆回答然后给一些评价。这个事情其实可以online地去实现,如果可以给评价loss,那其实就可以用MBR解码找到$\sum_{y’} P(y’)·L(y,y’)$最小的y。这个方法甚至都不需要reward model,就能给一堆样本拿到一个得分。作者首先实验了一下在运行时直接MBR找最好的样本,发现这个样本一般确实是最好的。然后又尝试了self-train,把MBR样本当成正样本,发现训完的模型直接greedy-decoding就和之前用MBR挑出来的样本差不多好

Exploring the Benefit of Activation Sparsity in Pre-training

师兄的工作,作者发现在模型预训练中也是存在稀疏激活现象的,由此开发了一套集和Dense training和MoE training的pipeline,根据激活情况进行动态的routing,由此训出来的模型既可以作为dense模型保持效果,也可以用MoE的方式加快推理速度

阅读全文 »

今天论文都挺好的

From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities

这篇更好玩,是omni架构系列的工作,作者的想法是:能不能把bpe的思路应用都图片上,给每个patch打出来一个id,然后做image encoder。作者发现这样搞效果巨好

不是,哥们……

Video Instruction Tuning With Synthetic Data

很经典的llava系工作,作者整合了各种video caption数据集,最后合成出来了187k video sft数据,然后找了一波超参数,搞了个效果不错的llava-video模型。

这个和之前的llava-interleave的区别在哪

TypedThinker: Typed Thinking Improves Large Language Model Reasoning

阅读全文 »

LEOPARD : A Vision Language Model for Text-Rich Multi-Image Tasks

一个专门瞄准text-rich场景的VLM,作者构建了1M的高质量SFT数据,然后设计了一套自动根据图片质量申请visual token数量的pipeline,取得了不错的效果

Visual Perception in Text Strings

阴间大队的又一力作,作者发现,ascii字符渲染出来的图片天然有文字、图片两种表示,而且其转换是无损的。所以,VLM在这种ascii art场景表现如何呢?作者发现:

  • 4o表现傲视群雄
  • 在同时给出两种模态输入以后,没有模型能有提升,大家还是只会使用图片模态。经过SFT,提升也不明显

我感觉作者这个故事这么讲有点小,可以讲一个“探索MLLM对于模态fusion的能力,由此需要去找一个各模态无损压缩的场景……”

When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1

shunyu yao参与的工作,这篇工作其实有个前文叫”Embers of Autoregression”,大致探索了LLM在各种任务上是不是在罕见词场景下做的更差,然后发现所有模型都在罕见词场景下都非常的差。作者这次试了试o1,看看会不会缓解这个问题:

阅读全文 »

VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models

作者这里的XL,指的不是size,而是extra-length,探索了video-CLIP模型能否处理这种超长的dense caption。由此,作者设计了一套从数据到模型的变化,然后还仿照F1 score的方式在description ranking任务上定义了两个指标

我听喜欢这个方向的,顺应了re-caption和caption越来越长的大潮流

阅读全文 »

国庆节出来172篇工作

Scaling Optimal LR Across Token Horizons

Microsoft的工作,但是行文很有openAI的风范。作者想要探索训练大模型时的learning rate选择,能否从小模型试验中predict到大模型最优值呢?下面这张图基本说明了核心结论:

  1. 在不同的训练token数量下,最优lr都不一样。预计训练的token量越大,最优lr越小
  2. 在确定目标模型大小的情况下,最优lr随着token量的变化可以通过小模型的曲线,和大模型在少token的最优lr寻找上做拟合

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

之前我出过一篇mm1的论文阅读笔记,今天更新了mm1.5,这次在常规升级的基础上,添加了mm1.5-video视频理解和mm1.5-UI,继承了ferret-ui的手机界面理解能力

Do Influence Functions Work on Large Language Models?

这篇工作瞄准的是前几年的明星方向influence function。这个方向是想要找到对参数改变影响最小的一些训练数据,然后剔除掉给模型涨分。作者在大模型里重新实验了这个方向,发现定义里存在一个谬误:对于LLM来说,参数改变的多少和性能的提升相关性不大。所以,这个领域在大模型时代可能需要做出改变

阅读全文 »

Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations

这个工作名字有点拗口,但其实很新颖:作者想要评测LLM做数据可视化的质量。可视化中的一个重要因素就是信息不丢失,作者想到,能不能用VQA的形式评测?如果另一个VQA模型回答对了问题,说明可视化模型信息没丢失。

这个方向挺小众,不过我感觉这个方法还可以深挖呀,抽象一下:一个任务可以退化成更简单的任务,那可以通过评测退化的任务来给出原任务的一个noisy-reward

A Survey on the Honesty of Large Language Models

一篇LLM honesty的survey,这个领域一直挺小众的,大家好像叫法也挺多的,很多人叫自己hallucination,还有人叫”known and unknown”,感觉需要有个谁出来给个具体的定义,整合一下。

阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇”Large Models do In-Context Learning Differently”的阅读体验有点像,是一篇”暗合scaling天意”的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »