0%

2025年八月August
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 2
😁 4 5 6 😁 😁 9
😁 😁 12 😁 😁😁 15 16
17 😁😁 19 😁 21 22 😁
😁😁 25 26 27 😁 29 30
31
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025年八月August
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(251->2 papers) 2
3 4(226->0 papers) 5(621->2 papers) 6(335->1 papers) 7(350->1 papers) 8(287->1 papers) 9
10 11(287->0 papers) 12(575->0 papers) 13(255->2 papers) 14(323->1 papers) 15 16
17 18(221->2 papers) 19(438->2 papers) 20(268->3 papers) 21 22(268->2 papers) 23
24 25 26 27 28 29 30
31
阅读全文 »

Intern-S1: A Scientific Multimodal Foundation Model

Intern系列的新domain model。作者足足搞了2.5T的sci token,重点关注下游的sci reasoning场景,由此可以在下游做各个学科的高价值任务

这才是真正的ai4science

Mobile-Agent-v3: Foundamental Agents for GUI Automation

qwen团队也对gui agent出手了,一个7B模型,一个框架。作者基本上做了gui agent全流程的训练,然后在测试时进一步通过agent框架增强,在各个gui online benchmark上都做到了第一梯队的水平

各个团队都在向着omni agent前进呀

阅读全文 »

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

自从browsecomp出来以后,学界出来了一个又一个xx-browsecomp,不过这个看起来还挺靠谱的。是mmlu团队出品,作者设计了多模态场景的search任务,有两种情况:输入有图(地图侦探算是这类)问一个问题;另一种情况输入没有图但是解决问题需要图

大家又有的刷了……

ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents

唐总出的cua rl工作,通过大规模的sft蒸馏和后面的rl阶段,作者在osworld上做到了48分。 这个不是之前arpo那个training on testset了,是正版rlvr构造出来的

这个图颇有之前AutoWebBench三阶段训练图的遗风

V2P: From Background Suppression to Center Peaking for Robust GUI Grounding Task

这是一篇grounding训练的工作,作者的想法是:让模型本身有对屏幕位置的attention模块可以做辅助grounding,并可以单独加loss

阅读全文 »

Ovis2.5 Technical Report

阿里竟然出了一个不是qwen vl的vlm。作者做了一个5阶段的训练,包含最后的thinking rl环节

Qwen3-vl还会有吗

Reinforcement Learning with Rubric Anchors

这是一篇通用领域rl的工作。作者想要把reasoning rl这套搬到非rlvr领域。但是该如何verify任务正确性呢?作者找标注员和模型去一个个任务写评价标准,让模型根据标准给答案打分,以此做了一个rubric-based训练集。

阅读全文 »

gpt-oss-120b & gpt-oss-20b Model Card

Gpt-oss model card来了。

不是……模型都开源了,不讲讲怎么训的嘛,只给一大堆评测结果

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

这篇工作很妙。作者发现rl和sft在训练上的区别是,一个entropy有权重,一个没有权重。能不能把sft也视为一种rl,然后给他做dynamic weighting呢?作者尝试了一下在每个rollout中,对于query同时使用rollout和load sft数据,然后加权一起训练,发现效果很好

作者这里对sft的采样权就是单纯的p*(1-p),有点神奇。基本上就是训练entropy既不太大也不太小的token。但是这个sft数据加weight的思路挺有趣的

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来o1-like的模型了,其实翻过头看,大家的思考方式还是几年前的STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下STaR,连接上跟进的几篇STaR-like的工作,谈谈我对于o1的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »