0%

2025年十月October
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 2 3 4
5 😁 😁 😁😁 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025年十月October
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(445->3 papers)2(373->2 papers)3(334->3 papers)4
5 6(235->0 papers)7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
阅读全文 »

The Unreasonable Effectiveness of Scaling Agents for Computer Use

一篇比较有意思的cua工作:作者让模型在测试时,直接做多个traj,然后用一个投票机制选出来一个看起来最靠谱的提交。用这种方法,把osworld分数刷到了70分

这个方法有一个问题是,一个测试需要固定初始化方案,多次初始化。这可能是一个新的刷分赛道?

RLP: Reinforcement as a Pretraining Objective

yejin choi参与的工作。前几天我正好做了一篇"rl pretrain"方向的阅读笔记,这篇也可以算做这个方向的一个尝试。作者认为,正常的pretrain过程中,如果考虑long-cot,那么可以认为cot是一种“信息增益”的过程,如果能降低后文的ppl,就是有益的。作者反过来,直接把ppl作为cot的奖励,让模型在预训练数据上无监督地一直过数据。

这篇工作和我的本科毕设基本一模一样…但是我的ppl baseline不是ema版本

Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning

actor-critic模式,从最开始就认为是actor和critic应该是同等算力的。但在long-cot场景中,作者发现,由于reward很稀疏,value model效果不好,现在的grpo等算法甚至直接丢弃了critic,转而用group_adv来作为rl_baseline。那么,critic真的没有用了吗?作者实验了用一个参数小很多的critic组来作为rl value model,发现这样是效果还不错的

阅读全文 »

Rethinking Thinking Tokens: LLMs as Improvement Operators

昨天讲了一篇parallel的search agent,今天meta出了一篇单轮的parallel cot工作,做的比较原生,让模型每隔一个chunk,就生成多个token,然后用某个算法(可以是类似beam search的非ai过程)抽取出推理结果,然后接着推理…用这种方案最终得到答案。用这套方案,能得到更好的token efficiency(总共生成x token时,模型的表现为y,由此画出来的折线图)

meta好像有个组一直在研究decoding algorithm,是不是他们最近转型了

Generalized Parallel Scaling with Interdependent Generations

同样是meta,同样是parallel cot,这篇工作要更加底层。作者在想,能不能在模型层,就让模型知道自己是在进行parallel decoding,也就是说,每个回合的n路生成n个token以后,下一轮能不能直接把n个token的hidden state share一下,这样额外加一点点参数,让模型通过训练来表现更好?

这篇工作的解决思路和前面那篇就不一样,感觉是两个视角。

另外我之前推荐过google的工作:DynScaling: Efficient Verifier-free Inference Scaling via Dynamic and Integrated Sampling,这篇工作则更偏向外层一些,让模型先生成一些回答,然后拼回context再生成,最后用bandit问题的算法来挑选…感觉在parallel cot这块,现在是百花齐放,有点当年tree-of-thought的感觉

阅读全文 »

Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution

oppo的工作,之前他们做了一大堆agent评测工作,今天出了个method。作者提了一个叫做dag-parallel的概念,通过让search agent在运行时变成multi agent,区分不同role,每个人来做自己的子任务这种形式,来把browsecomp刷到了70分

agent framework加一分,native agent也得发力了

Where LLM Agents Fail and How They can Learn From Failures

这篇文章研究的问题很基础,但是我很喜欢他们的发力点。作者发现,目前世界上有很多agent benchmark,能测分数,但是不太好看出来模型为什么会失败,每次都要肉眼看数据。而且其实很多agent的错误,都是早期的某个小的“root cause”累积出来的

作者通过看了很多traj给failure mode做了一个分类,然后做了一个新benchmark,里面包含了人工标注的各种模型的failure traj以及原因。最后作者发现,如果对policy agent给出犯错原因,而不只是对错的feedback,agent可以立即把很大程度的错误修改掉

其实如果用这种data-centric的眼光审视任何一个benchmark,都能很快刷上去。

SCUBA: Salesforce Computer Use Benchmark

在OSWorld之后,其实也出了不少osworld-like benchmark:考验cua的某个方面,给了func-verifier,几百题这个规模。但今天saleforce的这篇确实算是质量高的,作者瞄准的是enterprise-task,可以func-verifier。还有个叫做demonstration-augmented setting,让模型先看人类的演示再做题(在这个情况下,一般模型水平会提升50%左右)。

阅读全文 »

真有1000篇…但说实话,最火的是没论文的sora2

LLaVA-OneVision-1.5 : Fully Open Framework for Democratized Multimodal Training

真的泪目,llava这个系列还在更新。时隔快一年,开源的训练数据涨到了85M midtrain,22M instruction following,训完以后在防守性的vlm benchmark上表现都很好

曾经也是和qwen-vl一个热度的东西呀

HunyuanImage 3.0 Technical Report

腾讯出的生成理解统一模型,类似于古老的janus结构,用了两种image encoder,总体decoder部分做成了80A13的级别

但是只开源image gen module是什么操作

MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use

阅读全文 »

最近连续刷到几篇在预训练阶段,改变训练模式,通过thought augment,或者干脆直接就做on-policy rl的工作。这些新的方法,和从2020年开始大家就在做的paraphrase/synthetic有本质区别吗?是比pretrain模式更好的模式吗?当然,这几篇工作在算力等级上存在明显的差距,所以没法直接对比。而且这种级别的设计差异其实也是没法对比的,变量太多,大家一般只能选一种。今天我们只是来浅浅了解一下几种工作都是如何开展的吧

参考文献:

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来o1-like的模型了,其实翻过头看,大家的思考方式还是几年前的STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下STaR,连接上跟进的几篇STaR-like的工作,谈谈我对于o1的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »