0%

2025-01-14-insights

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

挺好玩的工作,作者的思路很简单:目前CoT让模型生成一堆文字来辅助推理。那么既然现在VLM可以读图了,应该有一个对偶的事情是在图里面做辅助线写写画画去辅助推理。这篇工作,就试图让模型获得这个能力,作者专门构造了很多的这种数据。

WebWalker: Benchmarking LLMs in Web Traversal

一个web agent的benchmark工作,作者设计了更高的难度,也是要求模型从一个网站里面去搜寻信息,会根据最终信息的准确性来给出得分。

Lessons From Red Teaming 100 Generative AI Products

微软做的一个很扎实的文章,他们对100个AI产品做了攻击测试,由此得出了很多做攻击时、和思考产品安全性时的经验。