0%

2025 年四月 April
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
😁 😁 3 4 😁😁
6 😁 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025 年四月 April
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(472->1 papers) 2(266->3 papers) 3(218->3 papers) 4(224->2 papers) 5
6 7(201->1 papers) 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
阅读全文 »

DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

前有 deeperesearch,今天又来了个 deepresearcher。这篇工作了类似于前几天的 searcher-r1,也是探索通过 end2end-rl 的方式学习使用搜索引擎。但是和之前的 native agent 实现不同,这篇工作外置了一个 memory 模块和 html parser,让 agent 本身更专注在 reasoning 上。

阅读全文 »

Inference-Time Scaling for Generalist Reward Modeling

三大顶会的顶流:作者研究了 generative reward model 的扩展性,顺带跑通了完整的流程,从 SOTA 级别的 rm 一直到 rl 中的正收益。grm 的正收益主要在于,对于非 code/math 这种有 functional/binary reward 的场景,可以给出有价值的反馈信号。

之前 r1 里提了他们几种失败的尝试,这个是不是把他们整理整理准备逐个发出来了……

MegaMath: Pushing the Limits of Open Math Corpora

我就喜欢这种朴实无华的数据集工作,作者搞了一个 371B 的 math 数据集。从 text-only 里用 fasText 筛了数学文本,再从 code 里筛了数学相关的,最后用前两个数据集合成了一些纯数学推理和 math+code 解题的数据。

阅读全文 »

Learning from Streaming Video with Orthogonal Gradients

训练视频理解模型时,如果视频很长,就不得不切分成多个视频块,然后在不同 batch 里分开去前向了。作者发现已有工作基本都是先把整个数据集所有的视频切分完,再统一 random shuffle,但是其实一个长视频里前面的片段和后面的片段是关系很大的。 既然这样,作者就让训练时加载 batch 也是 streaming 来的,并且在 optimizer 中让梯度尽可能正交,发现对效果提升很明显

An Illusion of Progress? Assessing the Current State of Web Agents

一篇很不错的 online gui benchmark 工作,其实几天前就在 Twitter 宣传了,估计是被 arxiv 卡 track 了今天才挂出来。作者做了一个新的 mind2web 网页信息搜集 benchmark

是的,如果你真的测过老 mind2web-live 和 webarena,你就知道这几个老古董有多难用…… 一点信号都反馈不到

PaperBench: Evaluating AI’s Ability to Replicate AI Research

OpenAI 竟然发了一个双栏论文,这是打算回归学术界了?作者和去年 icml 20 篇 oral 的作者合作,出了一个论文复线 benchmark,看看模型能不能自动复现论文。由于这个任务实在太难了,作者就和论文作者联手做了 reward shaping,把一个任务拆成 autoregressive 的多个子任务,总共 8000 多个子任务。由此,就可以比较客观地研究 agent 在论文复现 benchmark 上的表现了

虽然是测试集,但感觉这个东西大致上就是 deep-research 的 data infra 了。怎么说,gpt5 准备在这个上面拉坨大的?

阅读全文 »

Scaling Language-Free Visual Representation Learning

Lecun 和 Saining 的工作:他还是对 self-supervise 念念不忘。看可能还真有点说法:作者发现,vlm 里的 encoder,之前用 clip loss 一直比 ssl loss 效果好,可能是 scaling 的不够,在对于数据量、参数量、测试集做了 scaling 以后,其实是 ssl 效果更好

再等等看…… 没准这个月的 llama4,会是 ssl encoder?

Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

如果大家记得之前有一篇叫 gsm8k-zero 的工作,发现把简单数学题改成不需要数学的形式,模型效果会直接变烂。字节这篇新工作也是类似的,作者发现简单把题目了一些动词改成类似的形式,也是直接烂掉。

Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

agent s2 应该是框架 agent 的新巅峰了,其实已经出来有段时间了,但是论文今天才挂出来。作者对于 planning 和 grounding 有专门的 agent module 去增强,达到了目前最强的效果。

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来 o1-like 的模型了,其实翻过头看,大家的思考方式还是几年前的 STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下 STaR,连接上跟进的几篇 STaR-like 的工作,谈谈我对于 o1 的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲 Many-Shot In-Context Learning,大概是 deepmind 一个月前的文章,读下来和之前 Jason Wei 那篇 "Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇" 暗合 scaling 天意 " 的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来 LLM 在 context 重建 AI 的可能性。最后,推荐大家读一下原文,deepmind 论文就像乐高,阅读 (拼搭) 体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近 Apple 出了自己的 30B 多模态大模型,涌现出了多模态的 in-context learning 效果,论文里一句 "even better" 让我想到库克那个嗓音…… 作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的 VLM,到底是怎么跑的?

阅读全文 »

最近 Sora 巨火,仿佛开启了 AIGC 的新时代。Jason Wei 表示:"Sora is the GPT-2 moment" for video generation。我在 sora 发布的大约第 5 个小时读了 technical report,里面最打动我的其实是没提什么细节的 recaption 技术。让我回想想起了之前读 DALL.E 3 论文时的愉快体验。

所以今天来分享一下 DALL.E 3 论文里的 recaption 细节,并讨论几个问题和我的看法:1) OpenAI 教你为什么要 "先查看原始数据,再做创新" 2) Recaption 和大家一直在聊的 "training on synthetic data" 是一回事吗? 3) recaption 技术是否已经在 (或者即将在) 被其他领域使用?

另外,我总结了一下上篇笔记阅读量大的关键:语言表达要浅显易懂些,所以这篇笔记我可以声明一下:没学过 AI 也能看懂 (我在博客里加了这个标签 "from scratch",所有我认为不懂 AI 或者只知道一点点的人也能看懂的博客都会加上这个标签)

参考文献:

https://openai.com/sora

Improving Image Generation with Better Captions

Automatic Instruction Optimization for Open-source LLM Instruction Tuning

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Reformatted Alignment

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

阅读全文 »