0%

2024-03-26-insights

Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA

简单来说,Chart-VQA 领域的 metamath。作者用 LLM 构造了大量的 subtask-split + program-of-thought 类型的数据。由此训练 baseline model,把 acc 从 38% 提升到了 54%。

作者似乎没画 scaling 曲线,不知道如果数据量再增大十倍会怎么样

Understanding Emergent Abilities of Language Models from the Loss Perspective

tangjie 老师的文章。作者发现,模型所谓的”emergent ability“几乎就是一个 pertrain loss 的函数,和模型大小、训练规模无关。只需要用 pretrain loss,就可以几乎无损地预测出来模型的表现。

由此,可以认为 emergent ability 是一种 loss 低于某个阈值的以后的特殊现象,我们其实很难用某个 loss 区间的结论去评估另一个 loss 区间模型的性能

这么看,真有一种 "音障" 的感觉了……

If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions

很好玩的工作:作者想要思考目前的 VLM 模型是怎么通过语言模态理解 vision concept 的,他们设计了两阶段的方法:

  1. 训练一个模型去拟合 VLM 的表示空间,具体来说,用 rl 算法让一个 text 模型生成 concept 的表示,用 cosine 相似度匹配得分。
  2. 训练好了以后,用模型去你拟合各种 vision concept 的表示,然后观察 VLM 如何通过文本来描述他对于视觉的感知

作者发现,实际上 VLM 对于视觉 concept 的感知并不是视觉的 (shape/color),很多时候都是基于 hallicinate 的、猜测的结果

Powered By Valine
v1.5.2