2024-08-20-insights

发表于 2024-08-20 更新于 2024-08-26 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 329 阅读时长 ≈ 1 分钟

Docling Technical Report

这不是一个大模型，而是一个demo paper。作者集合了多个相关的模型，只关注pdf parsing这一件事情，希望把任意的pdf变成markdown、json这种有结构的文档。这其实是一个挺复杂的过程，因为pdf里很多段落的语义关系、表格里面不同行还有行列的合并，各种脚注、章节标题。不过IBM这套pipeline做的不错

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

2M context的videoLM，由于用了long context的方法，可以原生的用高帧率表示video，而且真的训起来了。在video benchmark上表现很好

开源