0%

2024年二月February
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
😁 😁 3
4 😁 😁 😁 8 😁😁 😁
11 😁 😁 😁 😁 😁 17
18 19 20 21 😁 😁 24
25 26 27 28 29
阅读全文 »

压缩带来智能,5% 的论文决定学术界 95% 的成果!每天从 Arxiv 论文中总结分享最重要、最有趣的最多三篇论文。

Compression brings intelligence, 5% of papers determine 95% of AI technologies! Share the most important papers from Arxiv, every day, up to three!

2024年二月February
星期日
Sunday
星期一
Monday
星期二
Tuesday
星期三
Wednesday
星期四
Thursday
星期五
Friday
星期六
Saturday
1(52->3 papers)2(54->4 papers)3
4 5(71->2 papers)6(221->2 papers)7(77->3 papers)8(58->1 papers)9(81->2 papers)10
11 12(46->2 papers)13(93->3 papers)14(51->2 papers)15(49->2 papers)16(68->2 papers)17
18 19(88->2 papers)20(265->3 papers)21 22 23 24
25 26 27 28 29
阅读全文 »

265篇,最恐怖的一集

Dissecting Human and LLM Preferences

作者对比了human preference和model vote preference的区别,发现

  1. 人类的偏好相对于模型偏好来说:对错误不敏感,偏好支持query陈述的response,当模型承认不会时打低分。
  2. 类似大小的模型似乎有相同的偏好倾向,无论训练方式是什么
  3. 通过拟合judger的偏好,再仅仅换一换generator system prompt的情况下,实际上就能极大地提高模型的Performance

Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

meta的论文,作者发现目前的vision SFT阶段中,GPT-4v的数据不是关键,更diverse的query才是。作者收集了187个任务,大约1.6M的instance,由此进行了SFT,发现效果远胜于之前的模型。并得出了三点结论:

  1. GPT-4v的response不能让模型学会通用的visual能力,但是会让response的格式更符合human的预期
  2. 格式更符合human预期的问题,只需要1000条GPT-4v的response就能学到
  3. 真正的通用visual能力,来源于更diverse的query

Reformatted Alignment

阅读全文 »

最近一周去旅游了,回来一看竟然欠了680多篇论文???别急,慢慢补……

Smaller Language Models are capable of selecting Instruction-Tuning Training Data for Larger Language Models

SFT的数据选择对结果的影响很大,引入一些不好的SFT数据,反而会使得模型的效果更差。作者认为,数据的质量是数据的固有属性,并尝试用较小的模型选择SFT数据,并发现:即使用350M模型帮13B模型选择数据,效果仍然很好

When is Tree Search Useful for LLM Planning? It Depends on the Discriminator

作者探索了Agent里面的Tree-search和reflection两种方法,发现:只有当外界的反馈准确率超过90%时,Tree-search的能力才能显现出来,目前的LLM-vote基本上没有达到这个水平。所以,目前的Tree-search类方法可能得不偿失,在需要10倍计算量的基础上,提升并不明显。

阅读全文 »

好久不更新了,看到之前大约都是15天更新一篇笔记,最近不知道咋回事竟然一个多月没更新,正好这两天刷到了”More Agents is All You Need”,就来讲讲“时间换效果”的鼻祖——self-consistency。如果让模型sample多次,然后做major-voting,效果会更好吗?

参考文献:

Self-Consistency Improves Chain of Thought Reasoning In Language Models

Escape Sky-High Cost: Early-Stopping Self-Consistency for Multi-Step Reasoning

Universal Self-Consistency for Large Language Model Generation

More Agents is All You Need

Unlock Predictable Scaling from Emergent Abilities

阅读全文 »

上次写总结还是在2023-9-29, 没想到下次再写竟已经是3个月之后了,到了2023年的最后一天。每到年末,各种APP就喜欢来个xxx年度总结:B站总结、steam总结、网易云音乐总结……不过今天看到一个”新华社年度十大新闻”觉得挺有意思,我就想,能不能给我自己也列一个”年度十大新闻”呢?

阅读全文 »

上周刷到了刘鹏飞老师的 Alignment For Honesty, 分享给了大家 2023-12-13-insights。里面讲到如何训练LLM变得诚实,他沿用了孔子的定义:

知之为知之,不知为不知,是知(zhì)也。

To say “I know” when you know, and “I don’t know” when you don’t, that is wisdom.

我来一起看看他们是怎么做的吧

阅读全文 »

昨天OpenAI一口气更新了两篇论文,暨DALL.E 3之后的又一更新,其中一篇讲述了一个朴素的问题:如果未来的模型超越人类了,我们该怎么给他们提供监督信号?(毕竟我们只有人类——一个相对更弱的模型)

OpenAI把这个问题叫做weak-to-strong generalization在这里做了一些简单的尝试,对于这个问题的性质进行了一些探索。我们来一起学习一下他们看问题和解决问题的思路吧!

阅读全文 »

读得论文多了,写的笔记反而更少了……很多篇论文都想写,最后哪个都没写出来。今天来讲讲yejin Choi 2020年的一个论文:如何用模型自己在训练过程中的表现作为自监督信号,衡量训练集中每一条数据的质量?

很难想象这是yejin choi三年前思考的问题,我直到最近读到这篇论文,还觉得思路很新颖、很精妙

阅读全文 »

昨天刷到新挂的LLaVA-Plus的Arxiv论文,讲怎么做多模态的ReACT与训练模型。正好发现LMM(Large Multimodal Model)系列的模型似乎怎么讲过。那么LLaVA系,三篇论文,今天一次说完。

Visual Instruction Tuning

Improved Baselines with Visual Instruction Tuning

LLaVA-Plus: Learning to Use Tools for MulitModal Agents

flamingo、Kosmos 2.5下次有时间说啊

阅读全文 »