0%

2025年七月July
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
😁 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025年七月July
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(536->1 papers) 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
阅读全文 »

DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World

seed的工作,是一个dense caption的数据集。大概一年前deepmind做了一篇dense caption标注的工作,但当时没有开源数据集。这次这个方法很像,但是把1M caption全部开源了。

平均长度2813,比之前deepmind那个900更上一层楼

阅读全文 »

这也是一个做setting的文章。这篇工作考虑的是传统vqa任务,如果能让模型搜google 图片搜索同时文字搜索,可以训练一个search agent吗?作者试了一下,跑了个grpo,发现确实可以,而且效果很好

感觉AI真的进入下半场了,做setting的文章变得越来越多了

Mobile-R1: Towards Interactive Reinforcement Learning for VLM-Based Mobile Agent via Task-Level Rewards

好久不见GUI Agent RL相关工作,作者做了先单步rl+再多步rl的setting,不过就跑了15步GRPO?

阅读全文 »

Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

SWE Agent领域今年很火,大家逐渐能把swe verified的分数刷起来了。之前有个swe-smith的工作,自动从github上构造抽取issue数据,今天这个skywork的工作和他很像,但是分数刷的更高

所以,openai也是这么搞的,只是数据质量更高嘛

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来o1-like的模型了,其实翻过头看,大家的思考方式还是几年前的STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下STaR,连接上跟进的几篇STaR-like的工作,谈谈我对于o1的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »