0%

2025年六月June
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 2 😁😁 4 5 6 7
😁 9 10 11 😁 😁 😁
😁 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025年六月June
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 2(376->3 papers) 3(635->3 papers) 4(407->4 papers) 5 6(287->3 papers) 7
8 9(317->2 papers) 10(623->3 papers) 11(311->1 papers) 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
阅读全文 »

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

Kumar参与的工作,在agent setting上,作者定义了两个tes time scaling的维度:单个step内的thought长度,还是单个step里thought少,但是step多(test-time interaction)?作者发现相比之下,后者的效果更好。由此,作者设计了rl算法,使得agent可以在训练过程中逐渐增加action budget

感觉好像claude讲过一遍这个故事了?

MCPWorld: A Unified Benchmarking Testbed for API, GUI, and Hybrid Computer Use Agents

这篇工作的思路比较有趣,作者认为:完成Agent任务时,既可以通过gui键鼠操作来完成,也可以通过MCP工作调用来完成。只是由于任务不同,天生对于不同的接口有不同的支持性。那么,能不能day1就搭建一个同时支持两种方案的评测集,这样就可以公平的对比MCP-Agent、GUI-Agent、Hybrid-Agent了呢?

GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

一篇GUI Agent领域的工作,作者具体focus在reflection的行为上:当遇到问题时,能不能发现错误并纠正之前的问题。对于正常的human-sft数据,基本上trace里每个步骤都是正确的,这会导致模型根本没见过错误恢复的数据,online推理时一旦遇到问题,就难以纠正。作者想到的方法是,直接拿sft数据里,构造“犯错”的步骤,让模型学着去恢复。

阅读全文 »

PUZZLEWORLD: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts

最近出了几篇puzzle的工作,但这篇和之前的不一样。他不是手动构造的,而是从一个叫puzzlehunt的地方爬下来的。作者标注了答案、思考过程,由此做成了一个667道题的测试集。

dots.llm1 Technical Report

小红书出的LLM,11T训练量、140B激活14B的MoE、开源、没有用合成数据

这还是小红书吗

阅读全文 »

VIDEOMOLMO: Spatio-Temporal Grounding Meets Pointing

之前VLM领域有篇很好的工作叫molmo,是让人录音讲图片caption,同时一边在图片上画出一些点坐标。这篇工作在视频领域做了类似的事情,但是sam2。

meta财大气粗,录音做了1M 数据……感觉视频领域谁愿意花钱也这么搞1M,估计性能直接起飞了

PlayerOne: Egocentric World Simulator

游戏画面生成的工作很火,今天来了个真实世界的。给出初试图片,和action sequence,就能生成第一人称的视频。

新时代的机器翻译……

TreeRPO: Tree Relative Policy Optimization

如果大家记得之前deepseek做得mathshepherd,这是他的rl版本。作者在想:传统的grpo里面是对比多个样本的最终结果来获得advantage。那如果换成让这些样本连成一棵树,然后用结果reward归纳成为一些中间的score,模拟会更准确吗?

阅读全文 »

EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving

seed的工作,作者定义了一个场景叫“sequential problem solving”,就是把几道类似的题放到一个batch里,用多轮的形式一次全做了。看这个setting上模型能不能在完成任务的过程中learn and adapt。

话说最近这种in-context learning的工作越来越多了,在gui领域大家叫tutorial。在text-only上可能就是这种类似sequential problem solving的setting

GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

和下面那个类似,也是一个gui grounding的工作。这篇的思路有点像apple之前的ferret系列,作者不是用数字的形式预测坐标文本,而是用一个特殊token代表坐标(给出类似于热力图的预测),然后解码到坐标空间。通过这种方案,作者进一步做了verifier来选择不同的变体

我其实纠结过很长时间box的表示形式应该用文本还是特殊token,现在感觉可能各有利弊

Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights

一篇开源的mid-training级别的GUI Agent工作。作者准备了30B不同场景的token做了大训练,然后在下游做了优化

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来o1-like的模型了,其实翻过头看,大家的思考方式还是几年前的STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下STaR,连接上跟进的几篇STaR-like的工作,谈谈我对于o1的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »