随缘随笔 <br> Insights Flow

2025-10-06-insights

发表于 2025-10-08 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 0 阅读时长 ≈ 1 分钟

2025-10-03-insights

发表于 2025-10-08 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 805 阅读时长 ≈ 1 分钟

The Unreasonable Effectiveness of Scaling Agents for Computer Use

一篇比较有意思的cua工作：作者让模型在测试时，直接做多个traj，然后用一个投票机制选出来一个看起来最靠谱的提交。用这种方法，把osworld分数刷到了70分

这个方法有一个问题是，一个测试需要固定初始化方案，多次初始化。这可能是一个新的刷分赛道？

RLP: Reinforcement as a Pretraining Objective

yejin choi参与的工作。前几天我正好做了一篇"rl pretrain"方向的阅读笔记，这篇也可以算做这个方向的一个尝试。作者认为，正常的pretrain过程中，如果考虑long-cot，那么可以认为cot是一种“信息增益”的过程，如果能降低后文的ppl，就是有益的。作者反过来，直接把ppl作为cot的奖励，让模型在预训练数据上无监督地一直过数据。

这篇工作和我的本科毕设基本一模一样…但是我的ppl baseline不是ema版本

Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning

actor-critic模式，从最开始就认为是actor和critic应该是同等算力的。但在long-cot场景中，作者发现，由于reward很稀疏，value model效果不好，现在的grpo等算法甚至直接丢弃了critic，转而用group_adv来作为rl_baseline。那么，critic真的没有用了吗？作者实验了用一个参数小很多的critic组来作为rl value model，发现这样是效果还不错的

阅读全文 »

2025-10-02-insights

发表于 2025-10-07 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 737 阅读时长 ≈ 1 分钟

Rethinking Thinking Tokens: LLMs as Improvement Operators

昨天讲了一篇parallel的search agent，今天meta出了一篇单轮的parallel cot工作，做的比较原生，让模型每隔一个chunk，就生成多个token，然后用某个算法（可以是类似beam search的非ai过程）抽取出推理结果，然后接着推理…用这种方案最终得到答案。用这套方案，能得到更好的token efficiency（总共生成x token时，模型的表现为y，由此画出来的折线图）

meta好像有个组一直在研究decoding algorithm，是不是他们最近转型了

Generalized Parallel Scaling with Interdependent Generations

同样是meta，同样是parallel cot，这篇工作要更加底层。作者在想，能不能在模型层，就让模型知道自己是在进行parallel decoding，也就是说，每个回合的n路生成n个token以后，下一轮能不能直接把n个token的hidden state share一下，这样额外加一点点参数，让模型通过训练来表现更好？

这篇工作的解决思路和前面那篇就不一样，感觉是两个视角。

另外我之前推荐过google的工作：DynScaling: Efficient Verifier-free Inference Scaling via Dynamic and Integrated Sampling，这篇工作则更偏向外层一些，让模型先生成一些回答，然后拼回context再生成，最后用bandit问题的算法来挑选…感觉在parallel cot这块，现在是百花齐放，有点当年tree-of-thought的感觉

阅读全文 »

2025-10-01-insights

发表于 2025-10-06 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 1k 阅读时长 ≈ 1 分钟

Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution

oppo的工作，之前他们做了一大堆agent评测工作，今天出了个method。作者提了一个叫做dag-parallel的概念，通过让search agent在运行时变成multi agent，区分不同role，每个人来做自己的子任务这种形式，来把browsecomp刷到了70分

agent framework加一分，native agent也得发力了

Where LLM Agents Fail and How They can Learn From Failures

这篇文章研究的问题很基础，但是我很喜欢他们的发力点。作者发现，目前世界上有很多agent benchmark，能测分数，但是不太好看出来模型为什么会失败，每次都要肉眼看数据。而且其实很多agent的错误，都是早期的某个小的“root cause”累积出来的

作者通过看了很多traj给failure mode做了一个分类，然后做了一个新benchmark，里面包含了人工标注的各种模型的failure traj以及原因。最后作者发现，如果对policy agent给出犯错原因，而不只是对错的feedback，agent可以立即把很大程度的错误修改掉

其实如果用这种data-centric的眼光审视任何一个benchmark，都能很快刷上去。

SCUBA: Salesforce Computer Use Benchmark

在OSWorld之后，其实也出了不少osworld-like benchmark：考验cua的某个方面，给了func-verifier，几百题这个规模。但今天saleforce的这篇确实算是质量高的，作者瞄准的是enterprise-task，可以func-verifier。还有个叫做demonstration-augmented setting，让模型先看人类的演示再做题（在这个情况下，一般模型水平会提升50%左右）。

阅读全文 »

2025-09-30-insights

发表于 2025-09-30 更新于 2025-10-05 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 1.1k 阅读时长 ≈ 1 分钟

真有1000篇…但说实话，最火的是没论文的sora2

LLaVA-OneVision-1.5 : Fully Open Framework for Democratized Multimodal Training

真的泪目，llava这个系列还在更新。时隔快一年，开源的训练数据涨到了85M midtrain，22M instruction following，训完以后在防守性的vlm benchmark上表现都很好

曾经也是和qwen-vl一个热度的东西呀

HunyuanImage 3.0 Technical Report

腾讯出的生成理解统一模型，类似于古老的janus结构，用了两种image encoder，总体decoder部分做成了80A13的级别

但是只开源image gen module是什么操作

MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use

阅读全文 »

Synthetic, Paraphrase, Explain or Predict? 会比Pretrain+RL更优雅吗

发表于 2025-09-27 分类于论文阅读笔记阅读次数： Valine：
本文字数： 6.6k 阅读时长 ≈ 6 分钟

最近连续刷到几篇在预训练阶段，改变训练模式，通过thought augment，或者干脆直接就做on-policy rl的工作。这些新的方法，和从2020年开始大家就在做的paraphrase/synthetic有本质区别吗？是比pretrain模式更好的模式吗？当然，这几篇工作在算力等级上存在明显的差距，所以没法直接对比。而且这种级别的设计差异其实也是没法对比的，变量太多，大家一般只能选一种。今天我们只是来浅浅了解一下几种工作都是如何开展的吧

参考文献：

Reinforcement Learning on Pre-Training Data

Thinking Augmented Pre-training

Phi-4 Technical Report

阅读全文 »

重读STaR，与o1随想

发表于 2024-12-14 更新于 2024-12-15 分类于论文阅读笔记阅读次数： Valine：
本文字数： 8.6k 阅读时长 ≈ 8 分钟

半年没写论文阅读笔记，其实笔记草稿写了不少，都没转正。主要觉得像是机械的翻译，没有思想在里面，不如不发。最近大家开始陆陆续续放出来o1-like的模型了，其实翻过头看，大家的思考方式还是几年前的STaR，去年我也写过一篇阅读笔记介绍。

今天不妨来重新思考一下STaR，连接上跟进的几篇STaR-like的工作，谈谈我对于o1的理解吧。参考文献:

STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
Training Chain-of-Thought via Latent-Variable Inference
Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
Training Language Models to Self-Correct via Reinforcement Learning

阅读全文 »

论文阅读[精读]-Manyshot-ICL: 在context中重现传统AI的可能性

发表于 2024-05-27 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 4.8k 阅读时长 ≈ 4 分钟

今天来讲讲Many-Shot In-Context Learning，大概是deepmind一个月前的文章，读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像，是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来，想到了未来LLM在context重建AI的可能性。最后，推荐大家读一下原文，deepmind论文就像乐高，阅读(拼搭)体验一直很好……

参考资料：

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

	2025年十月October
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
			1	2	3	4
5	😁	😁	😁😁	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

	2025年九月September
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
	1	😁	3	4	5	😁
7	😁😁	9	😁	11	😁	13
14	😁	😁😁	17	😁	😁	20
😁😁😁	😁	😁	24	😁😁	26	😁😁
28	😁	😁

	2025年八月August
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
					1	2
😁	4	5	6	😁	😁	9
😁	😁	12	😁	😁😁	15	16
17	😁😁	19	😁	21	22	😁
😁😁	25	26	27	😁	😁	30
😁

	2025年七月July
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
		😁	😁	😁	😁	5
6	7	😁	9	10	😁	😁
😁	14	😁😁	😁	😁	18	19
😁	😁	😁	23	24	25	26
😁😁	😁	😁	😁	31

	2025年六月June
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
1	2	😁😁	4	5	6	7
😁	9	10	11	😁	😁	😁
😁	😁😁😁	17	😁😁	19	😁	21
22	23	😁	25	😁	27	😁
😁😁	😁

随缘随笔
Insights Flow

本月更新(Recent Update)

arxiv-insights

2025-10-06-insights

2025-10-03-insights

The Unreasonable Effectiveness of Scaling Agents for Computer Use

RLP: Reinforcement as a Pretraining Objective

Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning

2025-10-02-insights

Rethinking Thinking Tokens: LLMs as Improvement Operators

Generalized Parallel Scaling with Interdependent Generations

2025-10-01-insights

Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution

Where LLM Agents Fail and How They can Learn From Failures

SCUBA: Salesforce Computer Use Benchmark

2025-09-30-insights

LLaVA-OneVision-1.5 : Fully Open Framework for Democratized Multimodal Training

HunyuanImage 3.0 Technical Report

MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use

Synthetic, Paraphrase, Explain or Predict? 会比Pretrain+RL更优雅吗

重读STaR，与o1随想

论文阅读[精读]-Manyshot-ICL: 在context中重现传统AI的可能性

	2025年五月May
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
				😁😁	2	3
😁	😁	6	7	😁😁😁	😁	10
11	😁	😁	😁	😁	😁	17
18	19	😁	21	😁	23	😁
😁😁	😁	😁	28	😁	😁	😁

	2025年四月April
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
		😁	😁	3	4	😁😁
6	😁	😁	😁	😁	😁	12
13	😁	😁	😁	😁	😁	19
20	😁	22	23	24	😁	26
27	28	😁😁	😁😁😁

	2025年三月March
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
						1
😁	😁	😁	😁	😁	7	😁
9	😁	😁	😁	13	14	😁😁
16	😁	😁	😁	😁	😁	22
23	24	😁😁	😁	😁	28	😁
30	😁

	2025年二月February
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
						1
2	3	4	5	6	7	8
😁	10	11	😁😁	😁😁	😁	15
😁😁	😁	😁	😁	😁	21	22
😁	😁	😁	😁	😁	28

	2025年八月August
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
					1(251->2 papers)	2
3	4(226->0 papers)	5(621->2 papers)	6(335->1 papers)	7(350->1 papers)	8(287->1 papers)	9
10	11(287->0 papers)	12(575->0 papers)	13(255->2 papers)	14(323->1 papers)	15	16
17	18(221->2 papers)	19(438->2 papers)	20(268->3 papers)	21	22(268->2 papers)	23
24	25(221->1 papers)	26(506->3 papers)	27(263->1 papers)	28	29(263->0 papers)	30
31