0%

2024-08-20-insights

Docling Technical Report

这不是一个大模型,而是一个 demo paper。作者集合了多个相关的模型,只关注 pdf parsing 这一件事情,希望把任意的 pdf 变成 markdown、json 这种有结构的文档。这其实是一个挺复杂的过程,因为 pdf 里很多段落的语义关系、表格里面不同行还有行列的合并,各种脚注、章节标题。不过 IBM 这套 pipeline 做的不错

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

2M context 的 videoLM,由于用了 long context 的方法,可以原生的用高帧率表示 video,而且真的训起来了。在 video benchmark 上表现很好

开源

sofa
Powered By Valine
v1.5.2