0%

2024年十二月December
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 😁 3 😁 😁 6 😁
😁 😁 😁 😁 😁 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2024年十二月December
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 2(349->2 papers) 3(618->4 papers) 4(260->1 papers) 5(244->2 papers) 6(293->3 papers) 7
8 9(240->3 papers) 10(446->3 papers) 11(294->2 papers) 12(248->2 papers) 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
阅读全文 »

Multimodal Latent Language Modeling with Next-Token Diffusion

推荐一手朋友的工作,这篇工作的研究的是让模型直接把上一轮的hiddenstate拼回去,而不是查找到最接近的词向量,这是因为图片声音等模态的内容,不能像文本一样有天生的离散性质。能不能做呢?之前大家用词向量,是因为由此就可以转化成crossentropy loss让训练非常稳定,现在如果直接把词向量这个设计去掉、变成出口层的diffusion head,会带来训练的不稳定。但是作者发现,稍微对vae模块做一些改动,就可以使得vae地输出有一些往vqvae靠拢的性质。

StreamChat: Chatting with Streaming Video

一篇很有趣的工作,关于streaming video chat场景。这个场景已经不稀奇了,一堆人在研究。这篇牛的地方在于,他考虑一个情况:在模型说话的时候,视频也是在变化的,能不能让模型一边回答,同时一边持续关注视频,可能说一半再改口这样呢?

阅读全文 »

RADIO Amplified: Improved Baselines for Agglomerative Vision Foundation Models

Nvidia继续发力,这次是瞄准agglomerative vlm,经典的数据+算法改进+分析八股

The Pitfalls of Memorization: When Memorization Hurts Generalization

这是meta的一篇grokking类的研究:作者解决的是memorization的问题,即模型记住数据集中的某个简单规则,并背诵了有例外的数据的映射。这种学习模式可以让训练集的loss接近0,但是没有泛化性。这个问题虽然简单,但是却很难解决,因为其背后的本质原因是:这可能就是目前AI学习目标的最优解。

阅读全文 »

今天出了一堆论文,但大家都在讨论sora……发布应该避开最近两周

Language-Guided Image Tokenization for Generation

这个工作很有意思,作者提到已有的vqvae 图片tokenizer,都是输入图片吐出token sequence,都会损失信息。如果让tokenizer这一层可以用上image caption这种额外的图片信号呢?作者发现这么搞,出来的tokenizer效果比纯的image tokenizer好很多。问题在于,测试时也需要image caption存在。

Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone

kumar又出新作品了,虽然我看不太懂。作者提到现在的各路rl算法都是和模型结构深度绑定的,比如diffusion-policy、gaussian-policy、autoregressive-policy,想用一个算法跑起来几乎不可能。这里面的核心问题在于rl中的policy improvement这个step对于不同policy有不同的定义和问题。既然这样,如果把这个过程统一成SFT范式可以吗?虽然和rl的原始定义不太一致,但是训练却很稳定,真给他训出来了。

PROCESSBENCH: Identifying Process Errors in Mathematical Reasoning

Qwen团队的作品,一个衡量各家prm的benchmark。作者在3400道竞赛级别数学题上,用不同模型标注了trace,然后找人给出了 process reward,由此构造了一个prm测试集。作者发现,仅仅在gsm8k MATH这种简单题的prm标注上训出来的prm,其实泛化不到竞赛题上。然后基模换成qwq这种o1-based model,能好不少,不过比起真o1还是差远了。

阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »

最近Sora巨火,仿佛开启了AIGC的新时代。Jason Wei表示:"Sora is the GPT-2 moment" for video generation。我在sora发布的大约第5个小时读了technical report,里面最打动我的其实是没提什么细节的recaption技术。让我回想想起了之前读DALL.E 3论文时的愉快体验。

所以今天来分享一下DALL.E 3论文里的recaption细节,并讨论几个问题和我的看法:1)OpenAI教你为什么要"先查看原始数据,再做创新" 2)Recaption和大家一直在聊的"training on synthetic data"是一回事吗? 3)recaption技术是否已经在(或者即将在)被其他领域使用?

另外,我总结了一下上篇笔记阅读量大的关键:语言表达要浅显易懂些,所以这篇笔记我可以声明一下:没学过AI也能看懂(我在博客里加了这个标签"from scratch",所有我认为不懂AI或者只知道一点点的人也能看懂的博客都会加上这个标签)

参考文献:

https://openai.com/sora

Improving Image Generation with Better Captions

Automatic Instruction Optimization for Open-source LLM Instruction Tuning

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Reformatted Alignment

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

阅读全文 »

今天是2月29日,我迎来了研究生的第二个学期。上次2月29日已经是2020年,而下次2月29日要到2028年了。人生有多少4年,再加好久没有更新,遂写一写最近的生活吧。

其实我写总结这个track,还是因为最开始看了谭院士的博客 Wandai Blog:谭院士总是时间驱动,每天写一个sentence-level的总结,陆陆续续竟然坚持了十几年。时间是有惯性的,有点类似于顺着一个人的微信刷pyq,不会到了某个位置突然被卡掉,看下来有种震撼人心的感觉。所以我也想是不是记录一下自己的生活。

我当时选了另一种形式:事件感想驱动,更大的interval, 在corpus-level做记录,所以给自己起名字叫做"随缘"。现在想想可能并不适合,我和谭院士的记录方式也许应该倒一倒。我的生活当然没有谭院士丰富,用instruction tuning的话说:每天翻来覆去总是从一些task set里先sample task \(t \in \mathcal{T}\),再sample \(x \in \mathcal{X}_t\),最后预测 \(y = me(x)\)。做得多了,熟能生巧,常用的几个task的能力越来越高了,但一直没什么机会探索更大更diverse的instruction空间。

不过近期确实有所不同,我深感在过去一个月里,尝试的新事物堪比过去一两年。

阅读全文 »

好久不更新了,看到之前大约都是15天更新一篇笔记,最近不知道咋回事竟然一个多月没更新,正好这两天刷到了"More Agents is All You Need",就来讲讲“时间换效果”的鼻祖——self-consistency。如果让模型sample多次,然后做major-voting,效果会更好吗?

参考文献:

Self-Consistency Improves Chain of Thought Reasoning In Language Models

Escape Sky-High Cost: Early-Stopping Self-Consistency for Multi-Step Reasoning

Universal Self-Consistency for Large Language Model Generation

More Agents is All You Need

Unlock Predictable Scaling from Emergent Abilities

阅读全文 »