2025-01-14-insights

发表于 2025-01-15 更新于 2025-01-17 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 386 阅读时长 ≈ 1 分钟

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

挺好玩的工作，作者的思路很简单：目前CoT让模型生成一堆文字来辅助推理。那么既然现在VLM可以读图了，应该有一个对偶的事情是在图里面做辅助线写写画画去辅助推理。这篇工作，就试图让模型获得这个能力，作者专门构造了很多的这种数据。

一个web agent的benchmark工作，作者设计了更高的难度，也是要求模型从一个网站里面去搜寻信息，会根据最终信息的准确性来给出得分。

微软做的一个很扎实的文章，他们对100个AI产品做了攻击测试，由此得出了很多做攻击时、和思考产品安全性时的经验。