KOSMOS-2.5:密集文本的多模态读写模型

Overview

总览

题目: KOSMOS-2.5: A Multimodal Literate Model
机构：微软
论文: https://arxiv.org/pdf/2309.11419.pdf
代码: https://github.com/microsoft/unilm
任务: 密集文档类图像转录成结构化文本输出
特点: 同时支持产生具有空间感知的文本块和结构化的markdown文本
方法: 预训练的视觉编码器和一个与重采样模块连接的语言解码器组成
前置相关工作：Pix2Struct，KOSMOS-2，Flamingo

摘要

我们提出了KOSMOS-2.5，这是一个多模态读写模型，用于机器阅读文本密集型图像。KOSMOS-2.5在大规模文本密集型图像上进行预训练，擅长两个独立但协作的转录任务： (1)生成空间感知的文本块，每个文本块在图像内的位置都被赋予其空间坐标； (2)生成结构化文本输出，将样式和结构捕获到markdown格式。通过共享的Transformer架构、任务特定的提示和灵活的文

KOSMOS-2.5:密集文本的多模态读写模型

Overview

总览

摘要

悦读