0%

2025年十一月November
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1
😁 😁 😁😁 5 😁 7 😁
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2025年十一月November
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1
2 3(232->0 papers) 4(533->3 papers) 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
阅读全文 »

今天好像是nvidia发布会,出来了好多篇nv的论文

LongCat-Flash-Omni Technical Report

meituan最近猛猛发力了,接连出了flash,今天又出了flash-omni。这篇工作虽然叫flash,但其实是560 A27B

话说我最近才知道这个是”龙猫“,我之前一直以为是long来着...

RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks

这篇工作很有意思,作者发现传统的rl里面的reward model一般都是和policy独立训练的,所以他们之间不能互相交互。而作者把这个过程建模成了一个对抗过程:

  1. policy给个回答
  2. critic说出来原答案的一个更好验证的子集(rubric)
  3. 有一个另外的、不训练的validator,检测:1)rubric是否和原答案一致。2)rubric是否是通过

通过validator的最终裁决,可以同时给到actor和critic的得分,然后两者各自通过dpo训练。这个过程是把critic建模成actor的一个伴生检测器,一直学习去找到actor最薄弱的地方

感觉和下面那个有点像,这个领域应该也是有人提过,但好像一直没有人把它做work

阅读全文 »

Deep sequence models tend to memorize geometrically; it is unclear why.

这是一个偏理论的工作,但实验设计很有意思。作者想要区分:模型的记忆,是类似于查表的结构(k->v),还是类似于embedding相似度匹配?作者设计了一个场景:给定一个复杂的树结构,要求模型给出两个点之间的唯一路径。输入里是类似于(a-b, f-g)这种连接关系。

  • 如果是传统的in-context learning 模式,那没有办法做出来,靠memory的话,这就是一个\(O(e^n)\)的事情
  • 但作者把这个任务改成了training based。固定一个50000节点的图,让模型训练去预测一些节点的路径。此时,模型用几何模式和kv模式,对降低训练集loss其实是差不多的

此时,如果模型的记忆方式是“kv”,那在测试集上将没有任何泛化性。但是,作者发现模型竟然在测试集上仍然有几乎100%的成功率。说明图的几何结构以某种形式进入了参数里,模型可以以类似于人“瞄一眼”的模式推理。

在没有外力的情况下,模型为什么会倾向于用几何模式呢?

Defeating the Training-Inference Mismatch via FP16

这篇工作发现了一个惊天trick:大家一直在说的train/gen mismatch,可能很大程度上是bf16带来的。单纯把算法中的bf16变成fp16,就可以提升很多训练效果

GUI Knowledge Bench: Revealing the Knowledge Gap Behind VLM Failures in GUI Tasks

阅读全文 »

最近连续刷到几篇在预训练阶段,改变训练模式,通过thought augment,或者干脆直接就做on-policy rl的工作。这些新的方法,和从2020年开始大家就在做的paraphrase/synthetic有本质区别吗?是比pretrain模式更好的模式吗?当然,这几篇工作在算力等级上存在明显的差距,所以没法直接对比。而且这种级别的设计差异其实也是没法对比的,变量太多,大家一般只能选一种。今天我们只是来浅浅了解一下几种工作都是如何开展的吧

参考文献:

阅读全文 »

半年没写论文阅读笔记,其实笔记草稿写了不少,都没转正。主要觉得像是机械的翻译,没有思想在里面,不如不发。最近大家开始陆陆续续放出来o1-like的模型了,其实翻过头看,大家的思考方式还是几年前的STaR,去年我也写过 一篇阅读笔记 介绍。

今天不妨来重新思考一下STaR,连接上跟进的几篇STaR-like的工作,谈谈我对于o1的理解吧。参考文献:

  • STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
  • Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models
  • Training Chain-of-Thought via Latent-Variable Inference
  • Rest Meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering
  • Training Language Models to Self-Correct via Reinforcement Learning
阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇"Large Models do In-Context Learning Differently"的阅读体验有点像,是一篇"暗合scaling天意"的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句"even better"让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »