0%

2025年四月April
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
😁 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025年四月April
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(472->1 papers)2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
阅读全文 »

Handling Delay in Real-Time Reinforcement Learning

我很喜欢这篇工作,是一篇很“modern”的研究。作者发现,传统rl基本上都是一个可以暂停的环境,然后模型也很小,推理基本上是瞬间结束的,所以可以认为action产出是光速的,可以保证环境的causality。但当我们迁移到今天的rl agent时,你就会发现:模型的infer需要10秒,并且在这个时间里环境也不能暂停,比如你打cs,你见到人开始推理,等你infer完想瞄准,你已经死了。这个时候该怎么办呢?作者想到一个streaming的方案,能不能把模型在时间维度上做layer-wise的并行化,通过牺牲一定可解释性和效果,把适应延迟当成模型的一种能力训进去

他是真做过agent rl的……不过他这个方案似乎有两个问题:

  1. 这里讲了infer带来的延迟,还有另一个延迟,就是真实环境里,action的执行,到反映到屏幕上的时间,也会有延迟(网络延迟、渲染延迟)。
  2. 这个训练方案,等于锁定了延迟是一个固定的数值,我感觉是不是应该做一些domain randomization……毕竟你的延迟和推理速度是会波动的呀

阅读全文 »

Q-Insight: Understanding Image Quality via Visual Reinforcement Learning

在vlm sft领域里,有一个重要的问题是image quality,基本上图片质量不行,训出来的vlm也是垃圾。大家一般的做法是,把坏的图片踢掉不出题。但是,如何找到差的图片呢?作者想到,如果在rl里把图片质量分类当成一个sft任务,和正常的sft数据一起训练,是不是就好了呢?作者发现这样训出来的模型在这两件事上都做的不错

Learning to Instruct for Visual Instruction Tuning

之前看过一篇叫sq-llava的工作,讲在vlm sft数据里,对question加上loss,可以提分。那篇工作好像没火,今天又挂出来一篇类似的。作者认为,数据里的response信息其实有很多冗余,问题本身其实包含了图片的很多信息,所以学习提问是有意义的。

有没有人打算在大尺度下试试这个方案,我还挺好奇的

阅读全文 »

Model as a Game: On Numerical and Spatial Consistency for Generative Games

作者研究的是controlable video generation中,特定在游戏场景里,模型是否遵循数字和固定的地图。作者发现,在模型结构中额外设计number和map module,来记录当前的游戏和地图状态,可以让生成的视频极大地增强一致性。

所以一个极端是纯cg渲染,一个极端是纯ai渲染。中间其实有很多形态,类似于这里的number module,或者nerf?这个趋势听着怎么这么像rpa了……

UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

作者的思路很有意思:在gui-offline场景里,也就是说我提前知道一个好的完成任务的trace,能不能给出前缀,让模型通过rl的方式一直sample,然后奖励所有和target action一致的sample呢?作者发现通过这个方案,可以把效果优化的不错。

谁引用我我推荐谁……话说我之前想过过这个问题,感觉这个方案有个假设是:模型具有完成任务的app知识,因为rl,尤其是小规模的rl,只会激励知识的连接,而不会习得知识。不确定这种方案在扩展到更大题库时,会不会导致灾难性幻觉现象

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来o1-like的模型了,其实翻过头看,大家的思考方式还是几年前的STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下STaR,连接上跟进的几篇STaR-like的工作,谈谈我对于o1的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇”Large Models do In-Context Learning Differently”的阅读体验有点像,是一篇”暗合scaling天意”的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句”even better”让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »

最近Sora巨火,仿佛开启了AIGC的新时代。Jason Wei表示:”Sora is the GPT-2 moment” for video generation。我在sora发布的大约第5个小时读了technical report,里面最打动我的其实是没提什么细节的recaption技术。让我回想想起了之前读DALL.E 3论文时的愉快体验。

所以今天来分享一下DALL.E 3论文里的recaption细节,并讨论几个问题和我的看法:1)OpenAI教你为什么要”先查看原始数据,再做创新” 2)Recaption和大家一直在聊的”training on synthetic data”是一回事吗? 3)recaption技术是否已经在(或者即将在)被其他领域使用?

另外,我总结了一下上篇笔记阅读量大的关键:语言表达要浅显易懂些,所以这篇笔记我可以声明一下:没学过AI也能看懂(我在博客里加了这个标签”from scratch”,所有我认为不懂AI或者只知道一点点的人也能看懂的博客都会加上这个标签)

参考文献:

https://openai.com/sora

Improving Image Generation with Better Captions

Automatic Instruction Optimization for Open-source LLM Instruction Tuning

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Reformatted Alignment

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

阅读全文 »

今天是2月29日,我迎来了研究生的第二个学期。上次2月29日已经是2020年,而下次2月29日要到2028年了。人生有多少4年,再加好久没有更新,遂写一写最近的生活吧。

其实我写总结这个track,还是因为最开始看了谭院士的博客 Wandai Blog:谭院士总是时间驱动,每天写一个sentence-level的总结,陆陆续续竟然坚持了十几年。时间是有惯性的,有点类似于顺着一个人的微信刷pyq,不会到了某个位置突然被卡掉,看下来有种震撼人心的感觉。所以我也想是不是记录一下自己的生活。

我当时选了另一种形式:事件感想驱动,更大的interval, 在corpus-level做记录,所以给自己起名字叫做”随缘”。现在想想可能并不适合,我和谭院士的记录方式也许应该倒一倒。我的生活当然没有谭院士丰富,用instruction tuning的话说:每天翻来覆去总是从一些task set里先sample task $t \in \mathcal{T}$,再sample $x \in \mathcal{X}_t$,最后预测 $y = me(x)$。做得多了,熟能生巧,常用的几个task的能力越来越高了,但一直没什么机会探索更大更diverse的instruction空间。

不过近期确实有所不同,我深感在过去一个月里,尝试的新事物堪比过去一两年。

阅读全文 »