0%

2024年七月July
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
😁😁 😁 3 😁😁 5 6
7 😁 😁 😁 11 12 13
14 😁😁😁 16 😁😁 18 19 20
21 22 23 24 😁😁😁😁😁 😁 27
28 29 30 31
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2024年七月July
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(68->1 papers)2(155->3 papers)3(96->1 papers)4(87->2 papers)5 6
7 8(121->2 papers)9(106->2 papers)10(69->2 papers)11(45->2 papers)12(46->2 papers)13
14 15(49->1 papers)16(112->2 papers)17(97->1 papers)18 19(129->3 papers)20
21 22(50->1 papers)23(105->3 papers)24(54->1 papers)25(49->1 papers)26(60->2 papers)27
28 29 30 31
阅读全文 »

今天仔细拜读了一下llama3 technical report,写的真好啊,里面每一页的工作量都堪比arxiv的一整篇论文了……推荐大家都去读一下

OpenDevin: An Open Platform for AI Software Developers as Generalist Agents

Neubig的工作,我猜是因为track分类AI还是software而被arxiv卡住延期发布了。是一个开源agent框架社区,大家一起搭建可以写代码、执行代码、运行command line和web browsing的agent。

一篇研究攻击+scaling的工作,作者验证了一个结论:在LLM中,是否越大的模型越不容易遭受攻击。发现对于LLM和之前的vision model都是相似的特质。

感觉得到了一个大家都能想到的结果,不过研究的角度挺好玩的

阅读全文 »

Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

Yeijin Choi又来了,这个工作非常有趣:作者发现,虽然LLM的训练数据不可见,但是tokenizer是可见的。而tokenizer的训练过程就是BPE:每次选择最高频的n-gram扔进去,再选下一个最高频n-gram。如果我们有一个tokenizer,能不能猜到是用哪些mixture、什么比例训出来的呢?

作者发现还真可以,而且发现从(带顺序的)tokenizer可以推断出来一些闭源模型的训练细节,比如说claude和GPT的训练数据中包含非常大比例的代码数据

什么大破解时代

阅读全文 »

BOND: Aligning LLMs with Best-of-NDistillation

看名字就像是deepmind那个self-train团队的工作,果然是。作者探索的是模型对于一个question生成一堆答案,选最好的做训练来提升模型能力。大家会想到:这不就是llama2 align部分提到的reject-sample training吗?还真是,但是作者奉送了一个新的训练算法,让效果比正常的SFT好很多

Generalization v.s. Memorization: Tracing Language Models’ Capabilities Back to Pretraining Data

王威廉老师的工作,作者探索了之前grokking领域的general回路和memory回路的问题,作者想到:对于一个特定的输入,模型用什么回路是否和该问题在pretrain corpus的出现频率有关。所以,作者统计了每个test instance中的n-gram在预训练数据集的出现次数,证明了这个现象,并且发现,对于越大的模型,出现次数多的n-gram对于结果的提升越明显,也是就说模型获得更强的训练集泛化性

我之前似乎看到一篇在VLM里做这件事的工作:好像叫 VLM can not zero-shot

dMel: Speech Tokenization made Simple

Apple的论文, 最近越来越多见到他们的工作了,苹果这是下狠心准备狠狠进军AI研究了吗。这篇瞄准speech tokenizer领域。细节我没开看懂,看起来作者找到了一种无损的、且压缩率高的tokenize方案,并且效果也很不错。这是准备朝着apple-omni发力了?

话说现在研究大模型真是越来越难了……什么模态的知识都要学,想起了被《信号处理原理》支配的恐惧……

阅读全文 »

旅游回来足足欠下了一周的论文没读……最近越来越多kv-cache操作的论文了,要不后面写个阅读笔记调研梳理一下吧

LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

apple和meta的联名文章,真得看一眼。作者认为目前LLM的推理是两个阶段:一阶段算出来所有kv cache并保存,二阶段每个token使用保存的kv cache,同时存下来最新token的kv cache。作者的思路是,每个阶段模型能不能自己选用某些token,然后一旦算过都可以存下来留待下次使用。

阅读全文 »

Scaling Retrieval-Based Language Models with a Trillion-Token Datastore

刘奕群老师之前做过一个RAG的scaling law研究,刚刚拿了best paper。今天这个也是研究RAG中的dataset-size scaling,更进一步,作者还研究了同时考虑训练flop和inference flop下的最优模型参数,发现和LLM-only的模式是不同的。

metabench: A Sparse Benchmark to Measure General Ability in Large Language Models

我很喜欢的工作:如果大家还记得observational scaling law的论文,作者通过多个LLM在多个benchmark的得分直接分解出了每个benchmark的特征值,再做scaling prediction。这篇工作在instance-level做,作者认为目前的benchmark有很多的冗余、重复的知识,能不能在已有benchmark上找到一个子集,使得只用子集的得分就能确定完整benchmark的得分呢?作者发现,只用3%的数据就能得到接近99%的准确率……

这算什么?testing time core set吗……

SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning

Neubig的工作,一篇合成数据的小品文章:作者认为在合成数据生成的过程中,最好不要依赖别的模型、也不依赖人。作者的思路是每个任务有一些input output pairs,然后由此构造更多的input output pair,最后生成更多的SFT数据

阅读全文 »

今天来讲讲Many-Shot In-Context Learning,大概是deepmind一个月前的文章,读下来和之前Jason Wei那篇”Large Models do In-Context Learning Differently”的阅读体验有点像,是一篇”暗合scaling天意”的文章。

看完了我把他和另外两篇论文联系了起来,想到了未来LLM在context重建AI的可能性。最后,推荐大家读一下原文,deepmind论文就像乐高,阅读(拼搭)体验一直很好……

参考资料:

Many-Shot In-Context Learning

Many-Shot In-Context Learning in Multimodal Foundation Models

In-Context Reinforcement Learning with Algorithm Distillation

阅读全文 »

最近Apple出了自己的30B多模态大模型,涌现出了多模态的in-context learning效果,论文里一句”even better”让我想到库克那个嗓音……作者说明了很多在训练中收获到的经验教训,这是我最近几个月看的写法最清楚的一篇论文。正好借此讲讲多模态大模型:目前学界大火的VLM,到底是怎么跑的?

阅读全文 »