0%

2025-01-14-insights

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

挺好玩的工作,作者的思路很简单:目前 CoT 让模型生成一堆文字来辅助推理。那么既然现在 VLM 可以读图了,应该有一个对偶的事情是在图里面做辅助线写写画画去辅助推理。这篇工作,就试图让模型获得这个能力,作者专门构造了很多的这种数据。

WebWalker: Benchmarking LLMs in Web Traversal

一个 web agent 的 benchmark 工作,作者设计了更高的难度,也是要求模型从一个网站里面去搜寻信息,会根据最终信息的准确性来给出得分。

Lessons From Red Teaming 100 Generative AI Products

微软做的一个很扎实的文章,他们对 100 个 AI 产品做了攻击测试,由此得出了很多做攻击时、和思考产品安全性时的经验。

Powered By Valine
v1.5.2