0%

2025年十月October
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1 2 3 4
5 😁 😁 😁😁 😁 😁 😁
😁 😁 14 😁 😁 😁😁 18
19 😁 😁 22 23 😁 25
😁 😁 😁 29 30 31
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025年十月October
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(445->3 papers)2(373->2 papers)3(334->3 papers)4
5 6(235->0 papers)7(641->4 papers)8(305->0 papers)9(299->1 papers)10(349->1 papers)11
12 13(302->1 papers)14(670->2 papers)15(261->1 papers)16(249->2 papers)17(355->1 papers)18
19 20(244->2 papers)21(576->3 papers)22(316->1 papers)23(229->2 papers)24(266->2 papers)25
26 27(214->0 papers)28 29 30 31
阅读全文 »

Collective Communication for 100k+ GPUs

meta做的架构创新工作,作者目标如何在通信上加速100k gpu这个规模的训练集群。作者把他们的方法称为ncclX

不明觉厉

Surfer 2

一篇cua领域的agent framework工作,不过作者同时做了osworld train on test的rl训练,榜单刷的挺高的

阅读全文 »

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

这是一篇nvidia出的、很贵的工作。作者雇了物理、化学、金融等领域的博士生来给一个个领域题目写rubric(每个题目的评分标准),一共写了7000题的数据集,由此可以用llm judge来做专业领域题目的自动判分。这个方法有点像GDPVal,但是好像走得更远

开源

VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

之前yutao老师做了一个叫agentTrek的工作,让模型自动复现互联网的图文教程。作者这次把这个方法扩展到了视频领域,从软件的视频教程里提取action,变成可以训练的图文交错形式,进而给模型注入操作知识。前几天google(Watch and Learn)也出了一个IDM领域的cua工作,但更focus在in-context learning角度。

话说IDM的效果真的能做好吗

阅读全文 »

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

蚂蚁的工作,把1T A50B的模型跑起来了单轮rl。这种scale下的工作,肯定是从数据、rollout方式到训练加速、算法创新都有的一个形态,这篇工作也差不多,可以好好读一读

话说一直比较好奇kimi、qwen、ant他们一直在做的这个1T A50,是同一个新基模吗…这个基模本身的credit最后被分给哪个组了

阅读全文 »

最近连续刷到几篇在预训练阶段,改变训练模式,通过thought augment,或者干脆直接就做on-policy rl的工作。这些新的方法,和从2020年开始大家就在做的paraphrase/synthetic有本质区别吗?是比pretrain模式更好的模式吗?当然,这几篇工作在算力等级上存在明显的差距,所以没法直接对比。而且这种级别的设计差异其实也是没法对比的,变量太多,大家一般只能选一种。今天我们只是来浅浅了解一下几种工作都是如何开展的吧

参考文献:

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来o1-like的模型了,其实翻过头看,大家的思考方式还是几年前的STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下STaR,连接上跟进的几篇STaR-like的工作,谈谈我对于o1的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇”Large Models do In-Context Learning Differently”的阅读体验有点像,是一篇”暗合scaling天意”的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句”even better”让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »