0%

2025-03-14-insights

今天去考驾照了,只能说,过了

Transformers without Normalization

不是,科研也搞全明星?Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun, Zhuang Liu 谁来都得愣几秒。作者发现,normalization 这个设计,从 transformer 2017 开始,一直就没换过(凡是想换的人,loss 必爆 nan)。作者这次还真找了办法换掉了,而且效果竟然不掉。

这个东西的意义很大,因为 normalization 这个算子其实很慢、尤其 backward 的时候。这下大家又找到加速方案了…… 下次谁把 FFN 换成快速算子?

Uncertainty in Action: Confidence Elicitation in Embodied Agents

这篇文章读起来可能有点费解,但我还挺喜欢的。如果大家看过 openai 之前的那个 Teaching models to express their uncertainty in words,这篇文章就是它对偶的 agent 版本。作者探索了能否让 agent 在执行任务中表达自己的不确定性。

这好像是我第一次看到 agent 领域的 calibration 文章。不过我一直认为,agent 领域的 policy 和 rm 就应该是一个过程

Wenhu 老师的工作,乍一看还以为是 deep research 训练数据,原来是靠 websearch 构造 sft 训练数据。不过作者的流程也挺好玩的,作者主要解决的是 VLM sft 数据里缺少图片信息的问题。怎么解呢?作者发现,可以用 google 搜索这个图片相关的网页。这样的话,只要有一大堆图片,就能搜索到一大堆网页,然后对着网页出题了。

话说这样的话,另一个 baseline 是对 image 做 caption,然后对着 caption 出题。如果 websearch 的效果更好,说明目前的 caption 的 diversity 其实是瓶颈了?

Powered By Valine
v1.5.2