0%

2025年九月September
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 😁 3 4 5 😁
7 😁😁 9 😁 11 😁 13
14 😁 😁😁 17 😁 19 20
21 22 23 24 25 26 27
28 29 30
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025年九月September
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(185->0 papers)2 3(635->3 papers)4 5 6
7 8(192->1 papers)9(432->2 papers)10(236->4 papers)11(185->0 papers)12(199->2 papers)13
14 15(188->1 papers)16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
阅读全文 »

MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

一篇mcp benchmark工作,首图有点像online-mind2web的风格。发现很多在之前bench上做的很好的模型,在新bench上暴露问题

话说我们之前做过toolbench,感觉这类mcp bench工作一直有个bug在于:缺乏可以定量的judge办法,主流都是对主观任务做llm judge,这种系统一般连接rl以后会快速hack,不知道kimi是怎么搞的

阅读全文 »

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

大手笔,作者用了15000 a100 day,蒸馏了6M条flux的数据,然后开源了

开源了,就是源神

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

一篇vla rl的工作,作者直接用rl来优化vla。话说传统robotic领域似乎大家都在做rl了,但是vla领域好像确实一直没有人把rl跑work,为什么呢?

阅读全文 »

seed出的一篇visual cot领域的工作。这个场景是让模型去通过放大缩小图片,来研究图片里是否包含一些信息。作者做了一个算法上的改进,在多轮rl过程中,如果遇到模型hit max iteration时没有提交任务,这条数据就不训练,而不是按照0分赋值。这是因为这些样本实际上“不一定”是坏样本,可能只是budget给的不够。作者把这个设计叫做over-turn mask

对于overlong样本如何处理,现在学术界似乎分化出了几派观点。有人会mask,有人会罚分,有人会给一个soft punish做一下线性的reward衰减,还有人直接在system prompt里说明budget让模型学习去自己研究budget…不知道有没有谁可以把这个问题比较本质的解决?有点像是之前大家最开始给量子论打补丁的样子…

∆L Normalization: RETHINK LOSS AGGREGATION IN RLVR

刚说完multi-agent中length的问题,这篇工作就是在讲length问题带来的loss aggregation。作者想解决的核心问题是:一个batch里的各个traj,大家的length差距很大,该如何给每个token做loss权重,才能让每个人都公平呢?作者在这篇工作了给了很多数学,最后推导出了一个看上去很公平的算法

Instruction Agent: Enhancing Agent with Expert Demonstration

这篇工作虽然图画得比较简陋,但是事情挺有意思的。作者在GUI Benchmark OSWorld上尝试了让模型follow每个题目,人写的过程指导。发现在给出正确指导的情况下,模型在70%以上的情况下都可以把本来不会做的题目做对

这个方向在几个月前有几篇和tutorial learning相关的工作,但是再后面似乎就没有做这个方向了。我一直很喜欢,之前想出一篇阅读笔记梳理来着

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来o1-like的模型了,其实翻过头看,大家的思考方式还是几年前的STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下STaR,连接上跟进的几篇STaR-like的工作,谈谈我对于o1的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »

最近Sora巨火,仿佛开启了AIGC的新时代。Jason Wei表示:“Sora is the GPT-2 moment” for video generation。我在sora发布的大约第5个小时读了technical report,里面最打动我的其实是没提什么细节的recaption技术。让我回想想起了之前读DALL.E 3论文时的愉快体验。

所以今天来分享一下DALL.E 3论文里的recaption细节,并讨论几个问题和我的看法:1)OpenAI教你为什么要"先查看原始数据,再做创新" 2)Recaption和大家一直在聊的"training on synthetic data"是一回事吗? 3)recaption技术是否已经在(或者即将在)被其他领域使用?

另外,我总结了一下上篇笔记阅读量大的关键:语言表达要浅显易懂些,所以这篇笔记我可以声明一下:没学过AI也能看懂(我在博客里加了这个标签"from scratch",所有我认为不懂AI或者只知道一点点的人也能看懂的博客都会加上这个标签)

参考文献:

https://openai.com/sora

Improving Image Generation with Better Captions

Automatic Instruction Optimization for Open-source LLM Instruction Tuning

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Reformatted Alignment

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

阅读全文 »