0%

2025年六月June
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 2 😁😁 4 5 6 7
😁 9 10 11 😁 😁 😁
😁 😁😁😁 17 😁😁 19 😁 21
22 23 😁 25 26 27 28
29 30
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025年六月June
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 2(376->3 papers) 3(635->3 papers) 4(407->4 papers) 5 6(287->3 papers) 7
8 9(317->2 papers) 10(623->3 papers) 11(311->1 papers) 12(284->2 papers) 13(302->0 papers) 14
15 16(328->1 papers) 17(535->3 papers) 18(275->2 papers) 19(226->2 papers) 20 21
22 23(397->3 papers) 24 25 26 27 28
29 30
阅读全文 »

Hunyuan3D 2.5: Towards High-Fidelity 3D Assets Generation with Ultimate Details

腾讯继续在3d obj生成领域发力,迭代到了2.5

DynScaling: Efficient Verifier-free Inference Scaling via Dynamic and Integrated Sampling

一篇google的工作,看起来很有些alpha evolve的风采,作者发现传统的think都是串形的,一个token接着一个token。作者想把他改成半并行的结构,让模型独立地采样一会,再来个sync全部拼在一起,然后再让后面的模型看着所有的context,接着做并行地推理。

OAgents: An Empirical Study of Building Effective Agents

Oppo的工作,前几天他们做了一篇对比agent test time scaling的工作,今天又出了一篇对比不同agent框架和framework设计对下游任务的影响,放在一起读还挺solid。不过这篇工作里,作者真的搞了个agent出来

阅读全文 »

Truncated Proximal Policy Optimization

seed的一篇工程算法结合的工作。作者发现同步online rl这类算法,有一个固有的缺陷:一次rollout的时间,受制于batch里最长时间的sample,所有节点都会等着它结束。能不能让超长的样本干脆不roll了,early stopping,同时用起来已经生成的token?作者从这里出发设计出来了T-PPO,展现了更强的训练效率

EMBODIED WEB AGENTS: Bridging Physical-Digital Realms for Integrated Agent Intelligence

这篇工作里,作者搭建了一个新的setting,让模型可以在完成具身任务的过程中搜索网页,由此连接了具身agent和web agent。

阅读全文 »

ESSENTIAL-WEB V1.0: 24T tokens of organized web data

作者发现:随着时间增长,各家大模型公司的预训练数据量是指数增长。所以花在data filter的时间将会越来越多。所以作者构造了一个通用的筛选后数据集,提前针对不同的维度提前打好标签。这样在用的时候,直接根据数据标签做sql筛选就行了

Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

这篇工作是对之前一个工作的回击:之前有篇工作发现,RLVR并没有使得模型的bon提升。这篇工作指出了一个关键问题:bon这个metric本身是有问题的,因为bon的答案很可能是假阳(答案正确,但思考过程错误)。作者用另一个llm verifier检查thought是否有错误,发现如果考虑这个因素的话。新产生的metrics,训练了rlvr后是大大提高了

话说我之前看到那篇工作,是感觉会不会是训练后entropy关闭了,导致bon在行为上和bo1差不多……

阅读全文 »

AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy

Nvidia的工作,作者训了很多组模型,对比了各种sft初始化、各种temperature下模型的性能,给出了一组调参经验。

这位是真有卡

Scaling Test-time Compute for LLM Agents

Oppo的工作,在GAIA上对比了各种不同的scaling testtime compute框架的效果。和之前不同的点在于,作者做了比较新的模型对比,得出了一些结论。

AlphaEvolve: A coding agent for scientific and algorithmic discovery

火了整整一个月的alphaevolve的论文终于放出来了!这是一套人机结合的系统,人来决定一些可行的优化方向,然后agent来不停地向这个优化迭代算法

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来o1-like的模型了,其实翻过头看,大家的思考方式还是几年前的STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下STaR,连接上跟进的几篇STaR-like的工作,谈谈我对于o1的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »

最近Sora巨火,仿佛开启了AIGC的新时代。Jason Wei表示:"Sora is the GPT-2 moment" for video generation。我在sora发布的大约第5个小时读了technical report,里面最打动我的其实是没提什么细节的recaption技术。让我回想想起了之前读DALL.E 3论文时的愉快体验。

所以今天来分享一下DALL.E 3论文里的recaption细节,并讨论几个问题和我的看法:1)OpenAI教你为什么要"先查看原始数据,再做创新" 2)Recaption和大家一直在聊的"training on synthetic data"是一回事吗? 3)recaption技术是否已经在(或者即将在)被其他领域使用?

另外,我总结了一下上篇笔记阅读量大的关键:语言表达要浅显易懂些,所以这篇笔记我可以声明一下:没学过AI也能看懂(我在博客里加了这个标签"from scratch",所有我认为不懂AI或者只知道一点点的人也能看懂的博客都会加上这个标签)

参考文献:

https://openai.com/sora

Improving Image Generation with Better Captions

Automatic Instruction Optimization for Open-source LLM Instruction Tuning

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Reformatted Alignment

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

阅读全文 »