2025-10-31-insights

Deep sequence models tend to memorize geometrically; it is unclear why.

这是一个偏理论的工作，但实验设计很有意思。作者想要区分：模型的记忆，是类似于查表的结构(k->v)，还是类似于embedding相似度匹配？作者设计了一个场景：给定一个复杂的树结构，要求模型给出两个点之间的唯一路径。输入里是类似于(a-b, f-g)这种连接关系。

如果是传统的in-context learning 模式，那没有办法做出来，靠memory的话，这就是一个$O(e^n)$的事情
但作者把这个任务改成了training based。固定一个50000节点的图，让模型训练去预测一些节点的路径。此时，模型用几何模式和kv模式，对降低训练集loss其实是差不多的

此时，如果模型的记忆方式是“kv”，那在测试集上将没有任何泛化性。但是，作者发现模型竟然在测试集上仍然有几乎100%的成功率。说明图的几何结构以某种形式进入了参数里，模型可以以类似于人“瞄一眼”的模式推理。

在没有外力的情况下，模型为什么会倾向于用几何模式呢？

Defeating the Training-Inference Mismatch via FP16

这篇工作发现了一个惊天trick：大家一直在说的train/gen mismatch，可能很大程度上是bf16带来的。单纯把算法中的bf16变成fp16，就可以提升很多训练效果

GUI Knowledge Bench: Revealing the Knowledge Gap Behind VLM Failures in GUI Tasks

一篇cua的qa benchmark工作。这几年cua一般都是出执行类的题目，但作者分析了online benchmark的failure mode以后，发现其中很大一部分是缺乏app操作知识。所以作者把这个问题单独地建模了出来，然后又掺杂了一些visualwebbench那种perception类的题目，以评测模型综合的gui知识水平

上一次看到还不错的gui qa benchmark，是GUIWorld，已经快2年了