Docling Technical Report
这不是一个大模型,而是一个 demo paper。作者集合了多个相关的模型,只关注 pdf parsing 这一件事情,希望把任意的 pdf 变成 markdown、json 这种有结构的文档。这其实是一个挺复杂的过程,因为 pdf 里很多段落的语义关系、表格里面不同行还有行列的合并,各种脚注、章节标题。不过 IBM 这套 pipeline 做的不错
LongVILA: Scaling Long-Context Visual Language Models for Long Videos
2M context 的 videoLM,由于用了 long context 的方法,可以原生的用高帧率表示 video,而且真的训起来了。在 video benchmark 上表现很好
开源
v1.5.2