0%

2025年二月February
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1
2 3 4 5 6 7 8
😁 10 11 😁😁 😁😁 😁 15
😁😁 😁 😁 😁 😁 21 22
23 24 25 26 27 28
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025年二月February
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1
2 3(217->2 papers) 4 5 6(182->1 papers) 7(187->0 papers) 8
9 10(245->2 papers) 11(431->3 papers) 12(324->3 papers) 13(218->3 papers) 14(253->1 papers) 15
16 17(204->0 papers) 18(518->4 papers) 19(195->1 papers) 20(195->1 papers) 21 22
23 24 25 26 27 28
阅读全文 »

Qwen2.5-VL Technical Report

2.5vl出来了一段时间,今天technical report挂上来了。从2vl的2T token,增长到了4.1T token,模型效果也涨了很多。

大概说明,保持训练数据的健康增长,基本上模型的效果也可以健康增长?

阅读全文 »

今天grok3发布了,今天的别的paper会有热度吗

M3: A Modular World Model over Streams of Tokens

一篇做游戏agent的工作,作者把不同的小游戏merge在一起,用一套统一的tokenize方法进行编码,最后在下游任务上发现:可以通过同一个模型,在多个任务上都达到human level performance

LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws

这篇文章的标题差不多把文章内容讲完了。作者测试了不同的模型结构,发现几乎不影响从一个测试集到另一个测试集的loss曲线换算。真正影响曲线换算的,只有数据。或者说,训练数据类型,决定了换算关系里99%的成分

Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

yu su老师的新作,是一个gui agent合成数据的工作,作者搞了大约10万个trace,并且记录了中间过程的各种grounding target,训练出来的模型效果也很不错。

最近很多靠VLM自己合成gui trace的工作,从agenttrek到os-genesis到前两天的Internet Scaling Training for Agent,会是下一个agent大增长点吗?

阅读全文 »

Zero-shot Concept Bottleneck Models

Concept model是一个挺奇怪的领域,类似于vq的退化形式,让vlm先对图片编码,再对编码根据attention,从一个大规模的向量池子里找到topk的concept做激活,最后让另一个分类头根据这些激活的concept映射到分类结果。这样子,每个concept只有激活或者不激活两种形式,所以可解释性比较好。作者提出了一套不对vlm encoder做训练的方案。

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来o1-like的模型了,其实翻过头看,大家的思考方式还是几年前的STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下STaR,连接上跟进的几篇STaR-like的工作,谈谈我对于o1的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »