0%

2025年十一月November
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1
😁 😁 😁😁 5 😁 7 😁
😁😁 10 😁 😁😁 😁 14 😁
😁 17 😁 19 20 21 22
23 24 25 26 27 28 29
30
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025年十一月November
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1
2 3(232->0 papers)4(533->3 papers)5(219->1 papers)6(219->1 papers)7(201->1 papers)8
9 10(181->0 papers)11(618->3 papers)12(357->3 papers)13(236->2 papers)14(297->0 papers)15
16 17(285->2 papers)18 19 20 21 22
23 24 25 26 27 28 29
30
阅读全文 »

Virtual Width Networks

一篇模型结构的工作,作者讨论了一种叫做over-width的技巧。就是把word embedding的宽度搞得很大,然后在每个transformer block的入口投影成小维度,然后过一个比较窄的attention block,出来再投影到比较大,然后做残差链接。用这个方法,其实计算量增加不会很大的情况下,可以把模型参数量扩展到很大。

作者认为,模型有能力使用这些多出来的宽度去存储一些更深度、高维的信息,由此在与训练中获得更好的效果

On the Entropy Calibration of Language Models

一篇比较理论的工作,作者分析了模型的gen entropy为什么总是会随着生成而上升,也就是说越生成越会混乱。正是因为有这个事实存在,所以应用中大家经常需要topk/topp采样,等于是强制破坏模型分布来解决entropy的问题。作者得出了两个结论:

  1. 越生成越混乱,似乎是一种固有属性。随着模型参数量增大,改善及其不明显
  2. 这种累积误差的积累程度,和场景关系很大。在code场景似乎不严重,但对于开放生成影响就非常明显

最后,作者实验性地提出了一种(工程上无法实现因为太慢了)的算法,可以比topk/topp这种“破坏式”算法更好保留多样性,但又能解决累积误差的办法。未来,也许可以有所突破

典型地percy liang式论文,逻辑严谨,自成一体

阅读全文 »

这两篇挂出来了很多AAAI的文章

Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?

一篇next-token prediction image-generation领域的scaling law工作。大家都知道ntp的图片生成很拉,但原因在哪?

作者在各种模型参数量、训练数据量、训练flops上开展的了实验,发现了一个反直觉的结论:现在模型效果不好,并不是因为训练数据量不够,而是因为模型参数量不够大。想要做ntp的图片生成,应该扩展模型参数量

Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

隔壁组的工作。之前我们做了一个比较偏Minecraft的工作,这次这篇更专精原神。使用raw action space,让game model通过数据驱动的模式理解原神游戏。并且通过adaptive think的模式进行操作,也就是说:不再有react类的回合制概念,模型自己在遇到困难时才思考

阅读全文 »

LeJEPA: Provable andScalable Self-Supervised Learning Without the Heuristics

LeCun在Meta的遗作。作者仍然使用jepa训练框架(我之前也过一个blog介绍 JEPA阅读笔记),但是找到了一个新的loss形式,在这个模式下,模型可以更快的收敛,并且train loss和下游指标的相关性很高

Training Language Models to Explain Their Own Computations

一篇可解释领域的大作。作者想要用生成式的方案,把可解释建模成一些qa问题,比如⬇️的例子。这些例子都是有确定性答案的,只要真的跑target model infer,就可以得到结果。作者针对目标模型构造了这样的训练集,训练另一个模型去解释目标模型的行为,并得到两个关键发现:

  1. 这个方案可行性较高。只用10k规模的训练集就可以在测试集上表现良好
  2. 用目标模型的相同模型做finetune,效果远好于用别的模型(即使参数量大几十倍)。所以模型有能力从这个qa训练集中对应出和自身参数的相对关系

很漂亮的展开思路,感觉比前几年openai那个神经元解释神经元做得更scalable

Simulating the Visual World with Artificial Intelligence: A Roadmap

一篇world model的survey,作者把最近一段时间的技术拆分成了几个阶段。

阅读全文 »

最近连续刷到几篇在预训练阶段,改变训练模式,通过thought augment,或者干脆直接就做on-policy rl的工作。这些新的方法,和从2020年开始大家就在做的paraphrase/synthetic有本质区别吗?是比pretrain模式更好的模式吗?当然,这几篇工作在算力等级上存在明显的差距,所以没法直接对比。而且这种级别的设计差异其实也是没法对比的,变量太多,大家一般只能选一种。今天我们只是来浅浅了解一下几种工作都是如何开展的吧

参考文献:

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来o1-like的模型了,其实翻过头看,大家的思考方式还是几年前的STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下STaR,连接上跟进的几篇STaR-like的工作,谈谈我对于o1的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »