0%

2024-08-13-insights

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Xiao liu的新工作,暨去年的AgentBench之后,今年搞了个visual版本,首页的雷达图都是同一套模板。

Long-Form Answers to Visual Questions from Blind and Low Vision People

作者探索了输出很长的VQA场景的数据。作者发现,对于盲人或者弱视群体,需要VLM给出详细的答案,作者发现这样构造出来的数据常常会有hallicinate,并探索了一些增强的办法