2025-03-24-insights

发表于 2025-03-25 更新于 2025-03-28 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 270 阅读时长 ≈ 1 分钟

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

这篇文章探索了VLM o1的路线，但是这个路线还挺好玩的。大家还记得llm刚出来的时候，大家是怎么合成vlm sft数据的吗？就是给个图片caption，然后让llm对着caption想qa对。作者在o1里做了这个，让r1对着caption想qa对，然后训回去。

所以世界是一个大的循环……这么说neubig做得那一大堆改进得论文，都能搞出来vl-o1的版本了