随缘随笔 <br> Insights Flow

本月更新(Recent Update)

发表于 2022-06-28 更新于 2025-07-05 阅读次数： Valine：
本文字数： 33k 阅读时长 ≈ 30 分钟

	2025年七月July
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
		😁	😁	😁	😁	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

阅读全文 »

arxiv-insights

发表于 2024-01-15 更新于 2025-07-05 分类于随笔阅读次数： Valine：
本文字数： 11k 阅读时长 ≈ 10 分钟

压缩带来智能，5% 的论文决定学术界 95% 的成果！每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

	2025年七月July
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
		1(536->1 papers)	2(299->2 papers)	3(235->1 papers)	4(235->2 papers)	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

阅读全文 »

2025-07-04-insights

发表于 2025-07-04 更新于 2025-07-05 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 262 阅读时长 ≈ 1 分钟

WebSailor: Navigating Super-human Reasoning for Web Agent

Qwen团队出的webgpt agent工作。一篇很好的报告，基本把冷启、rft、rl都讲了一遍

AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

meta出的agent工作，虽然比较传统，但是像alpha evolve这样的系统已经证明，还就是这种系统现在效果好。这个系统可以在kaggle上50%的比赛拿到奖牌

阅读全文 »

2025-07-03-insights

发表于 2025-07-03 更新于 2025-07-04 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 117 阅读时长 ≈ 1 分钟

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

skywork之前开源了一个reward model，今天又迭代到了2期。足足训了2400万的pair数据

阅读全文 »

2025-07-02-insights

发表于 2025-07-02 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 347 阅读时长 ≈ 1 分钟

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

zhipu的VLM o1工作，作者提到了很多rl领域的小trick。还额外做了agent场景

这个名字起得好……

Can Large Language Models Develop Strategic Reasoning? Post-training Insights from Learning Chess

作者在chess场景做了rl，然后甚至用一个state value model去给出更高精度的反馈来提升训练鲁棒性。然而，作者发现模型总是在一个较低的水平收敛，没有发现更深层次的strategy。作者认为这个基模能力带来的，靠rl很难去发现新策略

阅读全文 »

2025-07-01-insights

发表于 2025-07-01 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 194 阅读时长 ≈ 1 分钟

DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World

seed的工作，是一个dense caption的数据集。大概一年前deepmind做了一篇dense caption标注的工作，但当时没有开源数据集。这次这个方法很像，但是把1M caption全部开源了。

平均长度2813，比之前deepmind那个900更上一层楼

阅读全文 »

重读STaR，与o1随想

发表于 2024-12-14 更新于 2024-12-15 分类于论文阅读笔记阅读次数： Valine：
本文字数： 8.3k 阅读时长 ≈ 8 分钟

半年没写论文阅读笔记，其实笔记草稿写了不少，都没转正。主要觉得像是机械的翻译，没有思想在里面，不如不发。最近大家开始陆陆续续放出来o1-like的模型了，其实翻过头看，大家的思考方式还是几年前的STaR，去年我也写过一篇阅读笔记介绍。

今天不妨来重新思考一下STaR，连接上跟进的几篇STaR-like的工作，谈谈我对于o1的理解吧。参考文献:

STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
Training Chain-of-Thought via Latent-Variable Inference
Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
Training Language Models to Self-Correct via Reinforcement Learning

阅读全文 »

论文阅读[精读]-Manyshot-ICL: 在context中重现传统AI的可能性

发表于 2024-05-27 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 4.7k 阅读时长 ≈ 4 分钟

今天来讲讲Many-Shot In-Context Learning，大概是deepmind一个月前的文章，读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像，是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来，想到了未来LLM在context重建AI的可能性。最后，推荐大家读一下原文，deepmind论文就像乐高，阅读(拼搭)体验一直很好……

参考资料：

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

论文阅读[精读]-MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

发表于 2024-03-23 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 6k 阅读时长 ≈ 5 分钟

最近Apple出了自己的30B多模态大模型，涌现出了多模态的in-context learning效果，论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训，这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型：目前学界大火的VLM，到底是怎么跑的？

阅读全文 »

从DALL.E 3沿用到Sora的Recaption: GPT4也在用？和"Synthetic Data"是一个意思吗？

发表于 2024-03-02 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 7.3k 阅读时长 ≈ 7 分钟

最近Sora巨火，仿佛开启了AIGC的新时代。Jason Wei表示："Sora is the GPT-2 moment" for video generation。我在sora发布的大约第5个小时读了technical report，里面最打动我的其实是没提什么细节的recaption技术。让我回想想起了之前读DALL.E 3论文时的愉快体验。

所以今天来分享一下DALL.E 3论文里的recaption细节，并讨论几个问题和我的看法：1)OpenAI教你为什么要"先查看原始数据，再做创新" 2)Recaption和大家一直在聊的"training on synthetic data"是一回事吗? 3)recaption技术是否已经在(或者即将在)被其他领域使用？

另外，我总结了一下上篇笔记阅读量大的关键：语言表达要浅显易懂些，所以这篇笔记我可以声明一下：没学过AI也能看懂(我在博客里加了这个标签"from scratch"，所有我认为不懂AI或者只知道一点点的人也能看懂的博客都会加上这个标签)

参考文献：

https://openai.com/sora

Improving Image Generation with Better Captions

Automatic Instruction Optimization for Open-source LLM Instruction Tuning

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Reformatted Alignment

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

阅读全文 »

	2025年六月June
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
1	2(376->3 papers)	3(635->3 papers)	4(407->4 papers)	5	6(287->3 papers)	7
8	9(317->2 papers)	10(623->3 papers)	11(311->1 papers)	12(284->2 papers)	13(302->0 papers)	14
15	16(328->1 papers)	17(535->3 papers)	18(275->2 papers)	19(226->2 papers)	20	21
22	23(397->3 papers)	24(524->2 papers)	25(258->1 papers)	26(185->2 papers)	27(248->1 papers)	28
29	30(248->0 papers)

	2025年五月May
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
				1(210->3 papers)	2(173->3 papers)	3
4	5(153->2 papers)	6(365->2 papers)	7(221->1 papers)	8(239->0 papers)	9(225->1 papers)	10
11	12(182->1 papers)	13(413->3 papers)	14(265->1 papers)	15(200->3 papers)	16(202->2 papers)	17
18	19(292->1 papers)	20(701->4 papers)	21(377->4 papers)	22(345->2 papers)	23(434->2 papers)	24
25	26(433->2 papers)	27(842->3 papers)	28(417->2 papers)	29(454->3 papers)	30(380->1 papers)	31

	2025年四月April
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
		1(472->1 papers)	2(266->3 papers)	3(218->3 papers)	4(224->2 papers)	5
6	7(201->1 papers)	8(478->2 papers)	9(249->0 papers)	10(204->1 papers)	11(194->2 papers)	12
13	14(195->2 papers)	15(479->2 papers)	16(290->1 papers)	17(206->1 papers)	18(257->4 papers)	19
20	21(195->1 papers)	22(441->2 papers)	23(188->2 papers)	24(192->1 papers)	25(192->0 papers)	26
27	28(175->1 papers)	29(365->0 papers)	30(219->2 papers)

	2025年三月March
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
						1
2	3(236->1 papers)	4(570->3 papers)	5(307->2 papers)	6(197->0 papers)	7(227->2 papers)	8
9	10(295->3 papers)	11(724->3 papers)	12(381->3 papers)	13(272->1 papers)	14(298->3 papers)	15
16	17(331->1 papers)	18(578->4 papers)	19(328->2 papers)	20(278->1 papers)	21(291->2 papers)	22
23	24(314->1 papers)	25(515->1 papers)	26(296->3 papers)	27(209->1 papers)	28(241->2 papers)	29
30	31(250->2 papers)

	2025年二月February
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
						1
2	3(217->2 papers)	4	5	6(182->1 papers)	7(187->0 papers)	8
9	10(245->2 papers)	11(431->3 papers)	12(324->3 papers)	13(218->3 papers)	14(253->1 papers)	15
16	17(204->0 papers)	18(518->4 papers)	19(195->1 papers)	20(195->1 papers)	21(247->1 papers)	22
23	24(264->2 papers)	25(550->4 papers)	26(264->3 papers)	27(251->1 papers)	28(258->1 papers)

	2025年一月January
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
			1	2	😁	4
5	😁	😁	😁	😁	10	😁
12	😁	14	😁😁	😁	😁	18
19	😁	21	😁	😁	😁	25
26	😁	😁	😁	😁	31

	2024年十二月December
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
1	😁	3	😁	😁	6	😁
😁	😁	😁	😁	😁	13	😁😁
15	😁	😁	18	😁	😁	😁
22	😁	😁	😁	26	27	28
29	😁	😁

	2024年十一月November
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
					😁	2
3	4	😁😁	😁	😁	😁	9
10	😁	😁	13	14	😁😁😁	16
17	😁	😁	😁	😁	😁	23
24	😁	😁	😁	😁	29	30