0%

2024-09-05-insights

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

neubig官方出面,更新mmmu了:这次的主要是把只靠text就能回答的问题刨除掉了

只能说,该强的还是强

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

注意,这个工作叫looongllava,因为之前有另一个叫longllava的工作……作者搞了个transformer和mamba混合结构,把单卡显存的vlm推到了1000照片。

只能说,vlm迈出的一小步,videoLLM迈出的一大步

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

李娟子老师的工作,讨论的是long term citation:这个领域有点像是vlm里面的grounding,要求模型在输出的时候可以cite一下上下文里面的其他地方。作者的处理方式就是正常的构造数据+sft,达到了4o水平,估计又要为glm添砖加瓦了。但是这个方向我觉得挺有意思的

人类大概也很难做到long-term citation吧