Benchmark Designers Should “Train on the Test Set” to Expose Exploitable Non-Visual Shortcuts
saining的position paper。作者发现绝大多数的vision benchmark上,随着模型参数量的扩大,其“blind test”和正常测试的指标差值并没有拉大,也就是说,大模型并不是因为更强的visual能力,而是靠更强的world knowledge进行了shortcut。
进一步地,作者给出了解决方案:直接在测试集上做k-fold训练,但是不给图片作为输入。如果模型可以在testset的testset上表现很好,说明其实这个benchmark可以根本不用vision
