随缘随笔 <br> Insights Flow

2025-11-17-insights

发表于 2025-11-18 更新于 2025-11-19 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 590 阅读时长 ≈ 1 分钟

Virtual Width Networks

一篇模型结构的工作，作者讨论了一种叫做over-width的技巧。就是把word embedding的宽度搞得很大，然后在每个transformer block的入口投影成小维度，然后过一个比较窄的attention block，出来再投影到比较大，然后做残差链接。用这个方法，其实计算量增加不会很大的情况下，可以把模型参数量扩展到很大。

作者认为，模型有能力使用这些多出来的宽度去存储一些更深度、高维的信息，由此在与训练中获得更好的效果

On the Entropy Calibration of Language Models

一篇比较理论的工作，作者分析了模型的gen entropy为什么总是会随着生成而上升，也就是说越生成越会混乱。正是因为有这个事实存在，所以应用中大家经常需要topk/topp采样，等于是强制破坏模型分布来解决entropy的问题。作者得出了两个结论：

越生成越混乱，似乎是一种固有属性。随着模型参数量增大，改善及其不明显
这种累积误差的积累程度，和场景关系很大。在code场景似乎不严重，但对于开放生成影响就非常明显

最后，作者实验性地提出了一种（工程上无法实现因为太慢了）的算法，可以比topk/topp这种“破坏式”算法更好保留多样性，但又能解决累积误差的办法。未来，也许可以有所突破

典型地percy liang式论文，逻辑严谨，自成一体

阅读全文 »

2025-11-14-insights

发表于 2025-11-16 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 0 阅读时长 ≈ 1 分钟

2025-11-13-insights

发表于 2025-11-15 更新于 2025-11-16 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 477 阅读时长 ≈ 1 分钟

这两篇挂出来了很多AAAI的文章

Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?

一篇next-token prediction image-generation领域的scaling law工作。大家都知道ntp的图片生成很拉，但原因在哪？

作者在各种模型参数量、训练数据量、训练flops上开展的了实验，发现了一个反直觉的结论：现在模型效果不好，并不是因为训练数据量不够，而是因为模型参数量不够大。想要做ntp的图片生成，应该扩展模型参数量

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

隔壁组的工作。之前我们做了一个比较偏Minecraft的工作，这次这篇更专精原神。使用raw action space，让game model通过数据驱动的模式理解原神游戏。并且通过adaptive think的模式进行操作，也就是说：不再有react类的回合制概念，模型自己在遇到困难时才思考

阅读全文 »

2025-11-12-insights

发表于 2025-11-13 更新于 2025-11-15 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 608 阅读时长 ≈ 1 分钟

LeJEPA: Provable andScalable Self-Supervised Learning Without the Heuristics

LeCun在Meta的遗作。作者仍然使用jepa训练框架(我之前也过一个blog介绍 JEPA阅读笔记)，但是找到了一个新的loss形式，在这个模式下，模型可以更快的收敛，并且train loss和下游指标的相关性很高

Training Language Models to Explain Their Own Computations

一篇可解释领域的大作。作者想要用生成式的方案，把可解释建模成一些qa问题，比如⬇️的例子。这些例子都是有确定性答案的，只要真的跑target model infer，就可以得到结果。作者针对目标模型构造了这样的训练集，训练另一个模型去解释目标模型的行为，并得到两个关键发现：

这个方案可行性较高。只用10k规模的训练集就可以在测试集上表现良好
用目标模型的相同模型做finetune，效果远好于用别的模型（即使参数量大几十倍）。所以模型有能力从这个qa训练集中对应出和自身参数的相对关系

很漂亮的展开思路，感觉比前几年openai那个神经元解释神经元做得更scalable

Simulating the Visual World with Artificial Intelligence: A Roadmap

一篇world model的survey，作者把最近一段时间的技术拆分成了几个阶段。

阅读全文 »

Synthetic, Paraphrase, Explain or Predict? 会比Pretrain+RL更优雅吗

发表于 2025-09-27 分类于论文阅读笔记阅读次数： Valine：
本文字数： 6.6k 阅读时长 ≈ 6 分钟

最近连续刷到几篇在预训练阶段，改变训练模式，通过thought augment，或者干脆直接就做on-policy rl的工作。这些新的方法，和从2020年开始大家就在做的paraphrase/synthetic有本质区别吗？是比pretrain模式更好的模式吗？当然，这几篇工作在算力等级上存在明显的差距，所以没法直接对比。而且这种级别的设计差异其实也是没法对比的，变量太多，大家一般只能选一种。今天我们只是来浅浅了解一下几种工作都是如何开展的吧

参考文献：

Reinforcement Learning on Pre-Training Data

Thinking Augmented Pre-training

Phi-4 Technical Report

阅读全文 »

重读STaR，与o1随想

发表于 2024-12-14 更新于 2024-12-15 分类于论文阅读笔记阅读次数： Valine：
本文字数： 8.6k 阅读时长 ≈ 8 分钟

半年没写论文阅读笔记，其实笔记草稿写了不少，都没转正。主要觉得像是机械的翻译，没有思想在里面，不如不发。最近大家开始陆陆续续放出来o1-like的模型了，其实翻过头看，大家的思考方式还是几年前的STaR，去年我也写过一篇阅读笔记介绍。

今天不妨来重新思考一下STaR，连接上跟进的几篇STaR-like的工作，谈谈我对于o1的理解吧。参考文献:

STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
Training Chain-of-Thought via Latent-Variable Inference
Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
Training Language Models to Self-Correct via Reinforcement Learning

阅读全文 »

论文阅读[精读]-Manyshot-ICL: 在context中重现传统AI的可能性

发表于 2024-05-27 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 4.8k 阅读时长 ≈ 4 分钟

今天来讲讲Many-Shot In-Context Learning，大概是deepmind一个月前的文章，读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像，是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来，想到了未来LLM在context重建AI的可能性。最后，推荐大家读一下原文，deepmind论文就像乐高，阅读(拼搭)体验一直很好……

参考资料：

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

论文阅读[精读]-MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

发表于 2024-03-23 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 6k 阅读时长 ≈ 5 分钟

最近Apple出了自己的30B多模态大模型，涌现出了多模态的in-context learning效果，论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训，这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型：目前学界大火的VLM，到底是怎么跑的？

阅读全文 »

	2025年十一月November
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
						1
😁	😁	😁😁	5	😁	7	😁
😁😁	10	😁	😁😁	😁	14	😁
😁	17	😁	19	20	21	22
23	24	25	26	27	28	29
30

	2025年十月October
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
			1	2	3	4
5	😁	😁	😁😁	😁	😁	😁
😁	😁	14	😁	😁	😁😁	18
19	😁	😁	22	23	😁	25
😁	😁	😁	29	30	31

	2025年九月September
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
	1	😁	3	4	5	😁
7	😁😁	9	😁	11	😁	13
14	😁	😁😁	17	😁	😁	20
😁😁😁	😁	😁	24	😁😁	26	😁😁
28	😁	😁

	2025年八月August
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
					1	2
😁	4	5	6	😁	😁	9
😁	😁	12	😁	😁😁	15	16
17	😁😁	19	😁	21	22	😁
😁😁	25	26	27	😁	😁	30
😁

	2025年七月July
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
		😁	😁	😁	😁	5
6	7	😁	9	10	😁	😁
😁	14	😁😁	😁	😁	18	19
😁	😁	😁	23	24	25	26
😁😁	😁	😁	😁	31

随缘随笔
Insights Flow

本月更新(Recent Update)

arxiv-insights

2025-11-17-insights

Virtual Width Networks

On the Entropy Calibration of Language Models

2025-11-14-insights

2025-11-13-insights

Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

2025-11-12-insights

LeJEPA: Provable andScalable Self-Supervised Learning Without the Heuristics

Training Language Models to Explain Their Own Computations

Simulating the Visual World with Artificial Intelligence: A Roadmap

Synthetic, Paraphrase, Explain or Predict? 会比Pretrain+RL更优雅吗

重读STaR，与o1随想

论文阅读[精读]-Manyshot-ICL: 在context中重现传统AI的可能性

论文阅读[精读]-MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

	2025年六月June
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
1	2	😁😁	4	5	6	7
😁	9	10	11	😁	😁	😁
😁	😁😁😁	17	😁😁	19	😁	21
22	23	😁	25	😁	27	😁
😁😁	😁

	2025年五月May
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
				😁😁	2	3
😁	😁	6	7	😁😁😁	😁	10
11	😁	😁	😁	😁	😁	17
18	19	😁	21	😁	23	😁
😁😁	😁	😁	28	😁	😁	😁

	2025年四月April
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
		😁	😁	3	4	😁😁
6	😁	😁	😁	😁	😁	12
13	😁	😁	😁	😁	😁	19
20	😁	22	23	24	😁	26
27	28	😁😁	😁😁😁

	2025年三月March
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
						1
😁	😁	😁	😁	😁	7	😁
9	😁	😁	😁	13	14	😁😁
16	😁	😁	😁	😁	😁	22
23	24	😁😁	😁	😁	28	😁
30	😁

	2025年十一月November
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
						1
2	3(232->0 papers)	4(533->3 papers)	5(219->1 papers)	6(219->1 papers)	7(201->1 papers)	8
9	10(181->0 papers)	11(618->3 papers)	12(357->3 papers)	13(236->2 papers)	14(297->0 papers)	15
16	17(285->2 papers)	18	19	20	21	22
23	24	25	26	27	28	29
30

	2025年八月August
星期日 Sunday	星期一 Monday	星期二 Tuesday	星期三 Wednesday	星期四 Thursday	星期五 Friday	星期六 Saturday
					1(251->2 papers)	2
3	4(226->0 papers)	5(621->2 papers)	6(335->1 papers)	7(350->1 papers)	8(287->1 papers)	9
10	11(287->0 papers)	12(575->0 papers)	13(255->2 papers)	14(323->1 papers)	15	16
17	18(221->2 papers)	19(438->2 papers)	20(268->3 papers)	21	22(268->2 papers)	23
24	25(221->1 papers)	26(506->3 papers)	27(263->1 papers)	28	29(263->0 papers)	30
31