0%

2024年十一月November
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
😁 2
3 4 😁😁 😁 😁 😁 9
10 😁 😁 13 14 😁😁😁 16
17 😁 😁 😁 21 22 23
24 25 26 27 28 29 30
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2024年十一月November
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(223->4 papers) 2
3 4(214->5 papers) 5(472->5 papers) 6(250->2 papers) 7(250->1 papers) 8(206->7 papers) 9
10 11(161->2 papers) 12(405->5 papers) 13(199->2 papers) 14(171->2 papers) 15(191->1 papers) 16
17 18(199->3 papers) 19(345->4 papers) 20(205->1 papers) 21 22 23
24 25 26 27 28 29 30
阅读全文 »

AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning

一篇在vlm里搞o1的工作:作者从数据驱动的视角理解这个问题,认为主要难点在于合成long-cot数据。作者先用4o+prompt启动了一些long-cot种子数据,再在运行时挂载了prm和树搜索,训出来效果还不错

公式呀公式……感觉未来会有50篇这个模式的工作出来,不知道谁能先scale起来

阅读全文 »

最近赶上了CVPR截稿,挺多CV track的工作挂出来了

Everything is a Video: Unifying Modalities through Next-Frame Prediction

挺有趣的思路:作者发现,其实文字也可以用图片表示。能不能就搞一个词表,把text-only训练数据里面的文字画在图片里,然后统一用图片词表去编码解码。然后模型的训练任务只是单纯的next frame prediction呢?

AnimateAnything: Consistent and Controllable Animation for Video Generation

一篇视频生成的工作,作者主打了一个可控性的概念,可以控制物体运动方向、镜头运镜方向、文字控制内容样式等等

Generative World Explorer

这名字起得大气。作者认为,已有的agent工作基本都要把agent放置在真实环境里去交互学习。如果模型和人一样,具有想象能力,能不能让模型放置在一个类似于禅房、练功房的地方,自己去想象并学习呢?作者进行了一些尝试,用一个video generation model去模型世界,进而让模型学习,发现效果还可以

阅读全文 »

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

这名字起得挺好……作者合成了100k的vlm long reasoning数据,主要是拆分推理步骤变成了一个推理原子的集合,发现训出来的模型在reasoning task上提升挺明显的。

不知道这种推理原子论对不对,有一波人在这么做

That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design

这篇论文有点罕见,是Jeff Dean的文章,目的是澄清之前对2020年工作的质疑。Google在2020年发布了一个AI设计芯片的工作,登上了nature封面。后来有人质疑结果不能复现,这次,Jeff Dean"复现"了质疑里的"不能复现",发现复现的人的测试有bug,其实能复现

有点绕,但就是这个意思

The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

之前gpt-4v api刚出的时候,有一篇类似的工作。这次claude computer use出了,对应的评测文章也挂出来了。

阅读全文 »

LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models

这篇工作没有研究3d生成,而是在研究mesh-generation。作者发现,LLM中应该具有一定的基础空间知识,以及对于mesh object的基础理解。由此,作者定义了一套tokenize方法,在不扩展词表的情况下把mesh represention变成了一堆token,由此构造了一个SFT数据集。发现LLM是有能力直接理解自然语言的需求,然后直接生成3d mesh obj的

阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »

最近Sora巨火,仿佛开启了AIGC的新时代。Jason Wei表示:"Sora is the GPT-2 moment" for video generation。我在sora发布的大约第5个小时读了technical report,里面最打动我的其实是没提什么细节的recaption技术。让我回想想起了之前读DALL.E 3论文时的愉快体验。

所以今天来分享一下DALL.E 3论文里的recaption细节,并讨论几个问题和我的看法:1)OpenAI教你为什么要"先查看原始数据,再做创新" 2)Recaption和大家一直在聊的"training on synthetic data"是一回事吗? 3)recaption技术是否已经在(或者即将在)被其他领域使用?

另外,我总结了一下上篇笔记阅读量大的关键:语言表达要浅显易懂些,所以这篇笔记我可以声明一下:没学过AI也能看懂(我在博客里加了这个标签"from scratch",所有我认为不懂AI或者只知道一点点的人也能看懂的博客都会加上这个标签)

参考文献:

https://openai.com/sora

Improving Image Generation with Better Captions

Automatic Instruction Optimization for Open-source LLM Instruction Tuning

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Reformatted Alignment

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

阅读全文 »

今天是2月29日,我迎来了研究生的第二个学期。上次2月29日已经是2020年,而下次2月29日要到2028年了。人生有多少4年,再加好久没有更新,遂写一写最近的生活吧。

其实我写总结这个track,还是因为最开始看了谭院士的博客 Wandai Blog:谭院士总是时间驱动,每天写一个sentence-level的总结,陆陆续续竟然坚持了十几年。时间是有惯性的,有点类似于顺着一个人的微信刷pyq,不会到了某个位置突然被卡掉,看下来有种震撼人心的感觉。所以我也想是不是记录一下自己的生活。

我当时选了另一种形式:事件感想驱动,更大的interval, 在corpus-level做记录,所以给自己起名字叫做"随缘"。现在想想可能并不适合,我和谭院士的记录方式也许应该倒一倒。我的生活当然没有谭院士丰富,用instruction tuning的话说:每天翻来覆去总是从一些task set里先sample task \(t \in \mathcal{T}\),再sample \(x \in \mathcal{X}_t\),最后预测 \(y = me(x)\)。做得多了,熟能生巧,常用的几个task的能力越来越高了,但一直没什么机会探索更大更diverse的instruction空间。

不过近期确实有所不同,我深感在过去一个月里,尝试的新事物堪比过去一两年。

阅读全文 »