Overview
总览
题目: KOSMOS-2.5: A Multimodal Literate Model
机构:微软
论文: https://arxiv.org/pdf/2309.11419.pdf
代码: https://github.com/microsoft/unilm
任务: 密集文档类图像转录成结构化文本输出
特点: 同时支持产生具有空间感知的文本块和结构化的markdown文本
方法: 预训练的视觉编码器和一个与重采样模块连接的语言解码器组成
前置相关工作:Pix2Struct,KOSMOS-2,Flamingo
摘要
我们提出了KOSMOS-2.5,这是一个多模态读写模型,用于机器阅读文本密集型图像。KOSMOS-2.5在大规模文本密集型图像上进行预训练,擅长两个独立但协作的转录任务: (1)生成空间感知的文本块,每个文本块在图像内的位置都被赋予其空间坐标; (2)生成结构化文本输出,将样式和结构捕获到markdown格式。通过共享的Transformer架构、任务特定的提示和灵活的文