0%

2024年十月October
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 2 3 4 5
😁😁 😁😁😁 😁😁 9 10 11 12
13 14 15 16 17 18 19
20 21 😁😁 😁😁 😁 😁😁 26
27 😁 😁 30 31
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2024年十月October
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(172->4 papers) 2(74->1 papers) 3(103->3 papers) 4(128->6 papers) 5
6 7(121->2 papers) 8(224->5 papers) 9 10 11 12
13 14 15 16(133->3 papers) 17(156->3 papers) 18 19
20 21(125->1 papers) 22(198->3 papers) 23(135->3 papers) 24(122->1 papers) 25(145->2 papers) 26
27 28(172->5 papers) 29(431->4 papers) 30 31
阅读全文 »

最近换了AI track和CV track才发现:有这么多人在研究diffusion model啊……感觉比研究LLM的人还多。还有研究stock prediction的 [doge]

Improving Multimodal Large Language Models Using Continual Learning

这是一篇研究VLM中的灾难性遗忘的工作,作者在pythia 2.8B中尝试了不同的方案,看看能否在llava中恢复LLM的能力。

目前看到的工作好像都是通过掺一些text-only数据去缓解这个问题。话说我有个更high level的问题:随着模型参数量增大(或者预训练token量变大),有没有可能灾难性遗忘这个问题会自然消失呢?只要记忆力够(或者印象够深刻),就不会忘东西了?

GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

作者搞了一个新的任务:如果输入的text不只是text,而是对于其中的某些名词,额外指定了在图片中的位置,模型能不能正确生成呢?作者发现还真可以。

感觉现在的text2image在发掘VLM任务里面的对偶任务:像这个任务,其实是VLM里面的REG任务,把text中的名词对应到图片中的指定位置。

MarDini: Masked Autoregressive Diffusion for Video Generation at Scale

Meta的工作,作者设计了一个巧妙的方案,拆分了视频生成中的空间信息和时间信息两个维度。具体来说,作者把同一个视频搞出来了低清晰度和高清晰度两个版本,在低清版本中实现时序的consistency,在高清版本中实现空间的consistency,最终用端到端的diffusion loss对视频生成做建模

阅读全文 »

最近发现有些好玩的工作甚至也没挂AI track,现在我每天把AI track和CV track同时看一遍……正好今天GUI Agent工作大爆发了,全列一遍

NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction

一篇做fmri重建的工作,想把人脑子里想的东西通过视频生成的方式搞出来。我记得之前看到过一篇生成图片的工作。

感觉研究这个方向挺好玩的,估计我研究的话每天有动力早起写代码

VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

如果大家还记得visualWebArena,今天出了个videoWebArena。也是benchmark类的工作,作者认为目前的GUI Agent都是VLM或者LLM,没有人考虑过视频理解。所以作者设计了2000个必须要有视频理解能力才能解决的GUI Task

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

了解 GUI领域的人,一定知道1月份的时候有个叫webvoyager的工作,主要是通过Prompt + GPT-4v增强做的GUI Agent。今天同团队出了训模型的工作,还挺solid的。先用4o的数据做SFT,后面接了个offline RL pipeline多轮迭代增强自己。

阅读全文 »

Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs

一篇技术报告,作者搞了一大堆数据筛法,筛出来了仅仅80k训练数据,并且发现,在这80k数据上,训出来的reward model实际上是最好的

AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant

OSWorld官方团队来刷OSWorld了。作者搞了个agent 框架,把OSWorld刷到了25%,把claude打下来了。

阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »

最近Sora巨火,仿佛开启了AIGC的新时代。Jason Wei表示:"Sora is the GPT-2 moment" for video generation。我在sora发布的大约第5个小时读了technical report,里面最打动我的其实是没提什么细节的recaption技术。让我回想想起了之前读DALL.E 3论文时的愉快体验。

所以今天来分享一下DALL.E 3论文里的recaption细节,并讨论几个问题和我的看法:1)OpenAI教你为什么要"先查看原始数据,再做创新" 2)Recaption和大家一直在聊的"training on synthetic data"是一回事吗? 3)recaption技术是否已经在(或者即将在)被其他领域使用?

另外,我总结了一下上篇笔记阅读量大的关键:语言表达要浅显易懂些,所以这篇笔记我可以声明一下:没学过AI也能看懂(我在博客里加了这个标签"from scratch",所有我认为不懂AI或者只知道一点点的人也能看懂的博客都会加上这个标签)

参考文献:

https://openai.com/sora

Improving Image Generation with Better Captions

Automatic Instruction Optimization for Open-source LLM Instruction Tuning

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Reformatted Alignment

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

阅读全文 »

今天是2月29日,我迎来了研究生的第二个学期。上次2月29日已经是2020年,而下次2月29日要到2028年了。人生有多少4年,再加好久没有更新,遂写一写最近的生活吧。

其实我写总结这个track,还是因为最开始看了谭院士的博客 Wandai Blog:谭院士总是时间驱动,每天写一个sentence-level的总结,陆陆续续竟然坚持了十几年。时间是有惯性的,有点类似于顺着一个人的微信刷pyq,不会到了某个位置突然被卡掉,看下来有种震撼人心的感觉。所以我也想是不是记录一下自己的生活。

我当时选了另一种形式:事件感想驱动,更大的interval, 在corpus-level做记录,所以给自己起名字叫做"随缘"。现在想想可能并不适合,我和谭院士的记录方式也许应该倒一倒。我的生活当然没有谭院士丰富,用instruction tuning的话说:每天翻来覆去总是从一些task set里先sample task \(t \in \mathcal{T}\),再sample \(x \in \mathcal{X}_t\),最后预测 \(y = me(x)\)。做得多了,熟能生巧,常用的几个task的能力越来越高了,但一直没什么机会探索更大更diverse的instruction空间。

不过近期确实有所不同,我深感在过去一个月里,尝试的新事物堪比过去一两年。

阅读全文 »

好久不更新了,看到之前大约都是15天更新一篇笔记,最近不知道咋回事竟然一个多月没更新,正好这两天刷到了"More Agents is All You Need",就来讲讲“时间换效果”的鼻祖——self-consistency。如果让模型sample多次,然后做major-voting,效果会更好吗?

参考文献:

Self-Consistency Improves Chain of Thought Reasoning In Language Models

Escape Sky-High Cost: Early-Stopping Self-Consistency for Multi-Step Reasoning

Universal Self-Consistency for Large Language Model Generation

More Agents is All You Need

Unlock Predictable Scaling from Emergent Abilities

阅读全文 »