论文:[2111.08609] Document AI: Benchmarks, Models and Applications (arxiv.org)
文档 AI:基准、模型和应用
Microsoft亚洲研究院 {lecu,t-yihengxu,tengchaolv,fuwei}@microsoft.com
摘要
文档人工智能(Document AI)或文档智能(Document Intelligence)是一个相对较新的研究课题,指的是自动读取、理解和分析业务文档的技术。它是自然语言处理和计算机视觉的重要研究方向。近年来,深度学习技术的普及极大地推动了文档AI的发展,如文档布局分析、视觉信息提取、文档视觉问答、文档图像分类等。本文简要回顾了一些具有代表性的模型、任务和基准数据集。此外,我们还介绍了早期启发式基于规则的文档分析、统计机器学习算法和深度学习方法,尤其是预训练方法。最后,我们展望了文档人工智能研究的未来方向。
1 文档 AI
文档人工智能(Document AI)是一个蓬勃发展的研究课题,近年来工业需求不断增加。它主要是指通过人工智能技术,从网页、数字文档或扫描文档中自动理解、分类和提取具有丰富排版格式的信息的过程。由于布局和格式的多样性、低质量的扫描文档图像以及模板结构的复杂性,文档人工智能是一项非常具有挑战性的任务,引起了相关研究领域的广泛关注。随着数字化进程的加快,文档、图像等的结构化分析和内容提取已成为数字化转型成功的关键部分。同时,自动、准确和快速的信息处理对于提高生产力至关重要。以商业文档为例,它们不仅包含公司内外事务的处理细节和知识积累,还包含大量与行业相关的实体和数字信息。手动提取信息既费时又费力,准确性低,可重用性低。文档AI深度结合人工智能和人类智能,在金融、医疗、保险、能源、物流等多个行业都有不同类型的应用。例如,在金融领域,可以进行财务报告分析和智能决策分析,为企业战略制定和投资决策提供科学、系统的数据支持。在医疗保健领域,它可以提高医疗案例的数字化水平,提高诊断的准确性。 通过分析医学文献和病例之间的相关性,人们可以找到潜在的治疗方案。在会计领域,可实现发票、采购订单信息自动抽取,自动分析大量非结构化单据,支持不同下游业务场景,节省大量人工处理时间。
图 1:文档 AI 概述
在过去的几十年里,文档智能的发展大致经历了不同的阶段,从简单的基于规则的启发式方法演变为神经网络方法。在 1990 年代初期,研究人员主要使用基于规则的启发式方法来理解和分析文档。通过手动观察文档的布局信息,他们总结了一些启发式规则,并处理了具有固定布局信息的文档。然而,传统的基于规则的方法往往需要大量的人工成本,而且这些手动汇总的规则是不可扩展的。因此,研究人员已经开始采用基于统计机器学习的方法。自2000年以来,随着机器学习技术的发展,基于标注数据的机器学习模型已成为文档处理的主流方法。它使用人工设计的特征模板来学习不同特征的权重,以理解和分析文档的内容和布局。尽管注释数据被用于监督学习,并且以前的方法可以带来一定程度的性能提升,但由于缺乏自定义规则和训练样本的数量,一般的可用性往往不令人满意。此外,不同类型文档的迁移和改编成本相对较高,这使得以前的方法不适用于广泛的商业用途。近年来,随着深度学习技术的发展和大量未标记电子文档的积累,文档分析识别技术进入了一个新时代。 图 1 代表了当前深度学习框架下文档 AI 技术的基本框架,其中通过内容提取工具(HTML/XML 提取、PDF 解析器、OCR 等)提取不同类型的文档,其中文本内容、布局信息和视觉图像信息组织得很好。然后,对大规模深度神经网络进行预训练和微调,完成各种下游文档AI任务,包括文档布局分析、可视化信息提取、文档可视化问答、文档图像分类等。深度学习的出现,尤其是以卷积神经网络(CNN)、图神经网络(GNN)和Transformer架构(Vaswani et al., 2017)为代表的预训练技术,彻底改变了传统的机器学习范式,需要大量的手动注释。相反,它严重依赖大量未标记的数据进行自监督学习,并通过“预训练和微调”范式解决下游任务,从而在文档 AI 任务方面取得了重大突破。我们还观察到许多成功的文档AI产品,例如Microsoft表单识别器 1
、亚马逊 Textract 2
、谷歌文档人工智能 3
以及许多其他技术,它们从根本上为各行各业提供了文档人工智能技术。
虽然深度学习大大提高了文档AI任务的准确性,但在实际应用中仍有许多问题需要解决。首先,由于当前大规模预训练语言模型输入长度的限制,通常需要将文档截断成几个部分,以便输入到模型中进行处理,这给复杂长文档的多页和跨页理解带来了很大的挑战。其次,由于在实际业务中,标注的训练数据与文档图像之间的质量不匹配,通常来自扫描设备、皱巴巴的纸张和随机放置,因此观察到性能不佳,需要更多的数据合成/增强技术来帮助现有模型提高性能。第三,目前的文档AI任务往往是独立训练的,不同任务之间的相关性没有得到有效利用。例如,视觉信息提取和文档视觉问答有一些共同的语义表示,使用多任务学习框架可以更好地解决这些问题。最后,预训练的Document AI模型在实际应用中也遇到了计算资源不足和标注训练样本的问题。因此,模型压缩、小样本学习和零样本学习是目前重要的研究方向,具有很大的实用价值。
接下来,我们介绍了当前主流的文档AI模型(CNN、GNN和Transformer)、任务和基准数据集,然后详细阐述了基于启发式规则的早期文档分析技术、算法和基于传统统计机器学习的模型,以及最新的深度学习模型,特别是多模态预训练技术。最后,我们概述了文档人工智能研究的未来方向。
图 2:使用 Faster R-CNN 进行文档布局分析
2 代表性模型、任务和基准
2.1使用卷积神经网络进行文档布局分析
近年来,卷积神经网络在计算机视觉领域取得了巨大的成功,特别是基于大规模标注数据集ImageNet和COCO的监督预训练模型ResNet(He et al., 2015)在图像分类、目标检测和场景分割方面带来了巨大的性能提升。具体来说,随着Faster R-CNN(任等人,2016)和Mask R-CNN(He et al.,2018)等多阶段模型,以及包括SSD(Liu et al.,2016)和YOLO(Redmon & Farhadi,2018)在内的单阶段检测模型,目标检测几乎已成为计算机视觉中的一个已解决的问题。文档布局分析本质上可以看作是文档图像的对象检测任务。文档中的标题、段落、表格、图形和图表等基本单位是需要检测和识别的对象。Yang et al. ( 2017a) 将文档布局分析视为像素级分割任务,并利用卷积神经网络进行像素分类,取得了良好的效果。Schreiber 等人(2017 年)首先将 Faster R-CNN 模型应用于文档布局分析中的表检测和识别,如图 2 所示,在 ICDAR 2013 表检测数据集中实现了 SOTA 性能(Göbel 等人,2013 年)。虽然文档布局分析是一项经典的文档智能任务,但多年来一直局限于一个小型的训练数据集,不足以将预训练模型应用于计算机视觉。使用大规模弱监督文档布局分析数据集,例如 PubLayNet (Zhong et al., 2019b)、PubTabNet (Zhong et al., 2019a)、TableBank (Li et al., 2020a) 和 DocBank (Li et al.,2020b),研究人员可以对不同的计算机视觉模型和算法进行更深入的比较和分析,进一步推动文档布局分析技术的发展。
(a)
(b)
图 3:使用 GNN 提取视觉信息
2.2基于图神经网络的视觉信息提取
信息提取是从非结构化文本中提取结构化信息的过程,它作为一个经典和基本的NLP问题已被广泛研究。传统的信息提取侧重于从纯文本中提取实体和关系信息,但对视觉丰富的文档的研究较少。视觉丰富文档是指其语义结构不仅由文本内容决定,而且与布局、排版格式以及表格/图形结构等视觉元素相关的文本数据。在实际应用中,视觉丰富的文档随处可见,例如收据、证书、保险文件等。Liu et al. ( 2019a) 提出使用图卷积神经网络对视觉丰富的文档进行建模。如图 3 所示,每张图像都通过 OCR 系统获得一组文本块,每个文本块都包含有关其在图像中的坐标信息以及文本内容。这项工作将这组文本块构成一个完全连接的有向图,即每个文本块构成一个节点,并且每个节点连接到所有其他节点。节点的初始特征是通过Bi-LSTM编码从文本块的文本内容中获得的。边的初始特征是相邻文本块与当前文本块之间的相对距离以及这两个文本块的纵横比。与其他只在节点上卷积的图卷积模型不同,这项工作更多地关注信息提取中的“个体-关系-个体”三元特征集,因此卷积是在“节点-边-节点”三元特征集上进行的。 此外,自注意力机制允许网络在全连接的有向图中的所有有向三元组中选择更值得注意的信息,并聚合加权特征。将初始节点特征和边特征在多个层中卷积,以获得节点和边的高级表示。实验表明,该图卷积模型明显优于Bi-LSTM+CRF模型。此外,实验表明,视觉信息起着重要作用,增加了对具有相似语义的文本的辨别力。文本信息对视觉信息也起着一定的辅助作用。自注意力机制对固定布局数据基本没有帮助,但它对非固定布局数据产生了一定程度的改进。
2.3基于Transformer架构的通用多模态预训练
在许多情况下,文档中文本块的空间关系通常包含丰富的语义信息。例如,表单通常以键值对的形式显示。通常,键值对的排列通常按左右顺序或上下顺序排列。同样,在表格文档中,文本块通常以网格布局排列,标题通常出现在第一列或第一行中。不同文档类型之间的这种布局不变性是通用预训练的关键属性。通过预训练,与文本自然对齐的位置信息可以为下游任务提供更丰富的语义信息。对于视觉丰富的文档,除了位置信息外,与文本一起呈现的视觉信息还可以帮助下游任务,例如字体类型、大小、样式和其他视觉丰富的格式。例如,在表单中,键值对的关键部分通常以粗体形式给出。在一般文件中,文章的标题通常会放大和加粗,特殊概念的名词会以斜体等显示。对于文档级任务,整体视觉信号可以提供全局结构信息,不同文档类型(如个人简历和科学论文)之间存在明显的视觉差异。这些视觉丰富的文档中显示的视觉特征可以通过视觉编码器提取并组合到预训练阶段,从而有效地改进下游任务。
图 4:LayoutLM 架构,其中 2-D 布局和图像嵌入集成到 Transformer 架构中。
为了利用布局和视觉信息,Xu et al. ( 2020) 提出了一个通用的文档预训练模型 LayoutLM (Xu et al., 2020),如图 4 所示。在现有预训练模型的基础上,新增二维位置嵌入和图像嵌入两个新的嵌入层,使文档结构和视觉信息能够有效组合。具体来说,根据OCR获取的文本边界框,算法首先获取文档中文本的坐标。将相应的坐标转换为虚拟坐标后,模型计算出x、y、w、h四个嵌入子层对应的坐标表示。最终的二维位置嵌入是四个子层的嵌入之和。在图像嵌入中,模型将每个文本对应的边界框视为 Faster R-CNN 中的建议,以提取相应的局部特征。特别地,由于 [CLS] 符号用于表示整个文档的语义,因此模型还使用整个文档图像作为嵌入在该位置的图像,以保持多模态对齐。
在预训练阶段,作者为 LayoutLM 提出了两个自我监督的预训练任务:
任务 #1:蒙版视觉语言模型
受蒙版语言模型的启发,作者提出了蒙版视觉语言模型(MVLM),以利用二维位置嵌入和文本嵌入的线索来学习语言表示。在预训练期间,模型会随机屏蔽一些输入标记,但保留二维位置嵌入和其他文本嵌入。然后,对模型进行训练,以在给定上下文的情况下预测被屏蔽的令牌。通过这种方式,LayoutLM模型不仅可以理解语言上下文,还可以利用相应的二维位置信息,从而弥合视觉和语言模态之间的差距。
任务 #2:多标签文档分类
为了理解文档图像,许多任务都需要模型来生成高质量的文档级表示。由于IIT-CDIP测试集合包含每个文档图像的多个标签,因此该模型在预训练阶段还使用多标签文档分类(MDC)损失。给定一组扫描的文档,该模型使用文档标签来监督预训练过程,以便模型可以对来自不同领域的知识进行聚类并生成更好的文档级表示。由于 MDC 损失需要每个文档图像的标签,而该标签对于较大的数据集可能不存在,因此在预训练期间它是可选的,并且将来可能不会用于预训练更大的模型。
实验表明,使用布局和视觉信息进行预训练可以有效地转移到下游任务中。在多个下游任务中实现了显著的精度改进。与卷积神经网络和图神经网络不同,通用文档级预训练模型的优势在于它可以支持不同类型的下游应用。
任务 | 基准 | 语言 | 论文/链接 | |
---|---|---|---|---|
文档布局分析 | ICDAR 2013 | En | Göbel 等人 ( 2013) | |
ICDAR 2019 | En | Gao et al. ( 2019) | ||
ICDAR 2021 年 | En | Yepes 等人( 2021) | ||
UNLV公司 | En | Shahab 等人 ( 2010) | ||
土拨鼠 | zh/zh | Fang et al. ( 2012) | ||
PubTabNet的 | En | 钟等人 ( 2019a) | ||
PubLayNet的 | En | 钟等人 ( 2019b) | ||
表格银行 | En | Li et al. ( 2020a) | ||
DocBank | En | Li 等人 ( 2020b) | ||
TNCR公司 | En | 阿卜杜拉等人(2021) | ||
TabLeX的 | En | Desai 等人 ( 2021) | ||
PubTables(发布表) | En | Smock 等人 ( 2021) | ||
IIIT-AR-13K型 | En | Mondal 等人 ( 2020) | ||
阅读银行 | En | Wang 等人 ( 2021b) | ||
视觉信息提取 | SWDE公司 | En | Hao et al. ( 2011) | |
FUNSD公司 | En | 纪尧姆·海梅 ( 2019) | ||
SROIE公司 | En | Huang et al. ( 2019) | ||
绳子 | En | Park 等人 ( 2019) | ||
吃 | Zh | 郭等人( 2019) | ||
埃菲 | Zh | Wang 等人 ( 2021a) | ||
深表 | En | Stray & Svetlichnaya ( 2020年) | ||
克莱斯特 | En | Stanisławek 等人 ( 2021) | ||
XFUND基金 |
| Xu 等人 ( 2021b) | ||
文件VQA | 文件VQA | En | Mathew 等人 ( 2021b) | |
信息图表VQA | En | Mathew 等人 ( 2021a) | ||
视觉MRC | En | 田中等人( 2021) | ||
WebSRC的 | En | Chen 等人 ( 2021) | ||
保险 VQA | Zh | 世界人工智能创新大赛 AIWIN - 比赛 | ||
文档图像分类 | 烟草-3482 | En | Kumar 等人 ( 2014) | |
RVL-CDIP系列 | En | Harley等人(2015) |
表1:文档布局分析、视觉信息提取、文档视觉问答和文档图像分类的基准数据集。
2.4主流文档AI任务和基准
文档 AI 涉及文档的自动阅读、理解和分析。在实际应用场景中,主要包括四类任务,分别是:
文档布局分析
这是对文档布局中的图像、文本、表格/图形/图表信息和位置关系进行自动分析、识别和理解的过程。
视觉信息提取
这是指从文档中的大量非结构化内容中提取实体及其关系的技术。与传统的纯文本信息提取不同,文档的构造将文本从一维的顺序排列转变为二维的空间排列。这使得文本信息、视觉信息和版图信息成为视觉信息提取中极其重要的影响因素。
文档可视化问答
给定数字生成的文档或扫描图像,首先使用PDF解析、OCR或其他文本提取工具自动识别文本内容,系统需要通过判断识别文本的内在逻辑来回答有关文档的自然语言问题。
文档图像分类
这是指分析和识别文档图像的过程,同时将它们分为不同的类别,例如科学论文、简历、发票、收据等。
对于这四个主要的文档人工智能任务,学术界和工业界已经有大量的开源基准数据集,如表1所示。这极大地促进了相关研究领域的研究人员对新算法和模型的构建,尤其是最新的基于深度学习的模型在这些任务中实现了SOTA性能。接下来,我们将详细介绍过去不同时期的经典模型和算法,包括基于启发式规则的文档分析技术、基于统计机器学习的文档分析技术以及基于深度学习的通用文档AI模型。
3启发式基于规则的文档布局分析
使用启发式规则的文档布局分析大致可以分为三种方式:自上而下、自下而上和混合策略。自上而下的方法逐步将文档图像划分为不同的区域。切割以递归方式执行,直到将区域划分为预定义的标准,通常是块或柱。自下而上的方法使用像素或组件作为基本元素单元,其中基本元素被分组和合并以形成更大的同质区域。自上而下的方法可以更快、更有效地分析特定格式的文档,而自下而上的方法需要更多的计算资源,但用途更广,可以涵盖更多具有不同布局类型的文档。混合策略结合了自上而下和自下而上,以产生更好的结果。
本节从自上而下和自下而上的角度介绍文档分析技术,包括投影轮廓、图像拖尾、连接组件等。
3.1投影剖面
ccProjection profile 作为一种自上而下的分析方法广泛用于文档分析。Nagy & Seth (1984) 使用 X-Y 剪切算法来剪切文档。该方法适用于文本区域和行距固定的结构化文本,但对边界噪声敏感,不能在倾斜文本上提供良好的效果。Bar-Yosef et al. ( 2009) 使用动态局部投影剖面来计算文档的倾斜度,以消除由文本倾斜引起的性能下降。实验证明,该模型在倾斜和弯曲文本上获得了更准确的结果。此外,还提出了X-Y切割算法的许多变体,以解决文档分析中存在的问题。O'Gorman ( 1993) 扩展了 X-Y 切割算法以使用组件边界框的投影,而 Sylwester & Seth ( 1995) 使用称为 edit-cost 的评估指标来指导分割模型,从而提高了整体性能。
投影剖面分析适用于结构化文本,尤其是具有曼哈顿布局的文档。对于具有复杂布局、倾斜文本或边框噪音的文档,性能可能不令人满意。
3.2图像拖尾
图像拖尾是指从一个位置渗透到周围环境,并逐渐扩展到所有同质区域,以确定其在页面中的布局。Wong et al. ( 1982) 采用自上而下的策略,使用游程平滑算法 (RLSA) 来确定均匀区域。图像二值化后,像素值 0 表示背景,1 表示前景。当 0 周围的 0 个数小于指定的阈值时 � ,该位置的 0 将更改为 1,RLSA 使用此操作将附近的前景合并为一个完整的单元。这样,字符可以逐渐合并成文字,单词可以合并成一行行的文字,然后范围继续延伸到整个同质区域。在此基础上,Fisher等人(1990)进一步增加了预处理,如噪声去除和倾斜校正。此外,根据动态算法对RLSA � 的阈值进行了修改,以进一步提高适应性。Esposito等人(1990)使用类似的方法,但操作对象从像素变为字符帧。Shi & Govindaraju(2004)将图像中的每个位置像素展开,以获得新的灰度图像,该图像被提取出来,并在手写字体、文本倾斜等情况下表现出良好的性能。
3.3连接的组件
作为一种自下而上的方法,连接的组件推断出小元素之间的关系,用于寻找同质区域,并最终将区域分类为不同的布局。Fisher et al. ( 1990) 利用连接分量来查找每个分量的 K 最近邻 (KNN) 分量,并通过彼此的位置和角度之间的关系来推断当前区域的属性。Saitoh et al. ( 1993) 根据文档的倾向将文本合并成行,然后将行合并到区域中,并将它们分类为不同的属性。Kise et al. ( 1998) 也试图解决文本偏斜的问题。作者使用近似面积 Voronoi 图来获得该区域的候选边界。此操作对任何倾斜角度的区域都有效。但是,由于在计算过程中需要估计字符间距和行距,因此当文档包含大字体和宽字符间距时,模型无法很好地执行。此外,Bukhari等人(2010)也在连接组件的基础上使用AutoMLP,以找到分类器的最佳参数,以进一步提高性能。
3.4其他方法
除了上述方法之外,还有一些其他基于启发式规则的文档布局分析方法。Baird et al. ( 1990) 使用自上而下的方法将文档划分为空白区域。Xiao & Yan (2003)使用Delaunay三角测量算法进行文档分析。在此基础上,Bukhari et al. ( 2009) 将其应用于独立于脚本的手写文档。此外,还有一些混合动力车型。Okamoto & Takahashi (1993)使用分隔符和空格来切割块,并进一步将内部组件合并到每个块中的文本行中。Smith(2009)将文档分析分为两部分。首先,采用自下而上的方法定位制表符,借助制表符推断列布局。其次,它使用自上而下的方法来推断列布局的结构和文本顺序。
4基于机器学习的文档布局分析
基于机器学习的文档分析过程通常分为两个阶段:1)对文档图像进行分割,获得多个候选区域;2)对文档区域进行分类并区分它们,例如文本块和图像。一些研究工作尝试使用机器学习算法进行文档分割,而其余的研究工作则尝试在生成的区域上构建特征并使用机器学习算法对区域进行分类。此外,由于机器学习带来的性能提升,由于表检测是文档分析的重要子任务,因此在表检测任务中尝试了更多的机器学习模型。本节将介绍针对不同布局分析任务的机器学习方法。
4.1文档分割
对于文档分割,Baechler&Ingold(2011)结合了X-Y切割算法,并使用逻辑回归来分割文档并丢弃空白区域。在获得相应区域后,他们还比较了KNN、逻辑回归和最大熵马尔可夫模型(MEMM)等算法作为分类器的性能。实验表明,MEMM和logistic回归在分类任务上具有更好的性能。Esposito等人(2008)进一步加强了文档分割中的机器学习算法。以自下而上的方式,在将字母合并为单词和文本行的过程中使用基于内核的算法(Dietterich et al., 1997),并将结果转换为用于存储的 xml 结构。之后,使用文档组织编辑器 (DOC) 算法来分析文档。Wu et al. ( 2008) 关注的是文本同时阅读两种顺序的问题。现有模型假设文本信息只有一个阅读顺序,但遇到水平或垂直方向书写的文本(如中文或日文)时,文本信息无法正常工作。该模型将文档分割过程分为四个步骤来判断和处理文本,并使用支持向量机(SVM)模型来决定是否按预定义的顺序执行这些步骤。
4.2区域分类
对于区域分类,传统的研究工作通常利用机器学习模型来区分不同的区域。Wei et al. ( 2013) 比较了 SVM、多层感知器 (MLP) 和高斯混合模型 (GMM) 作为分类器的优缺点。实验表明,SVM和MLP在区域分类方面的分类精度明显优于GMM。Bukhari等人(2012)从文档区域中手动构建和提取多个特征,然后使用AutoMLP算法对其进行分类。在阿拉伯语数据集中获得了 95% 的分类准确率。Baechler & Ingold(2011)通过对中世纪手稿进行三级分析并使用动态多层感知器(DMLP)作为分类模型,进一步提高了使用金字塔算法进行区域分类的性能。
4.3工作台检测
除了上述方法外,还有很多研究使用传统的机器学习模型进行表检测和识别。(Wang 等人,2000 年;Wangt 等人,2001 年;Wang et al., 2002)使用二叉树以自上而下的方式分析文档,以找到候选表区域,并根据预定义的特征确定最终的表区域。Pinto等人(2003)使用条件随机字段(CRF)模型提取HTML页面中的表格区域,并识别表格中的标题、副标题和其他内容。e Silva(2009)使用隐马尔可夫模型(HMM)来提取表区域。Chen & Lopresti (2011)检索手写文档中的表格区域,并使用SVM模型来识别该区域内的文本,并根据文本行预测表格的位置。Kasar等人(2013)识别图中的水平线和垂直线,然后使用SVM模型对每条线的属性进行分类,以确定该线是否属于表。Barlas et al. (2014) 使用 MLP 模型对文档中的连接组件进行分类,并确定它是否属于表。Bansal et al. ( 2014) 使用 leptonica 库 Bloomberg ( 1991) 对文档进行分割,然后构建包含每个区域周围信息的特征。通过使用固定点模型Li et al. (2013)来识别表区域,该模型不仅可以进行区域分类,还可以学习不同区域之间的关系。Rashid et al. ( 2017) 将区域分类纳入单词级别,然后使用 AutoMLP 确定单词是否属于表。
5基于深度学习的文档人工智能
近年来,深度学习方法已成为解决许多机器学习问题的新范式。深度学习方法已被证实在许多研究领域是有效的。最近,预训练模型的普及进一步提高了深度神经网络的性能。文档AI的发展也反映了深度学习中其他应用的类似趋势。在本节中,我们将现有模型分为两部分:用于特定任务的深度学习模型和支持各种下游任务的通用预训练模型。
5.1特定于任务的深度学习模型
5.1.1文档布局分析
文档布局分析包括两个主要子任务:视觉分析和语义分析(Binmakhashen & Mahmoud,2019)。可视化分析的主要目的是检测文档的结构并确定相似区域的边界。语义分析需要识别这些检测到区域的特定文档元素,例如标题、段落、表格等。PubLayNet (Zhong et al., 2019b) 是一个大规模的文档布局分析数据集。超过 360,000 个文档图像是通过自动解析 PubMed XML 文件构建的。DocBank(Li et al., 2020b)通过arXiv网站上PDF文件和LaTeX文件的对应关系,自动构建了可扩展的文档布局分析数据集,同时支持基于文本和基于图像的文档布局分析。IIIT-AR-13K(Mondal等人,2020)还提供了13,000个手动注释的文档图像,用于布局分析。
在第 2.1 节中,我们介绍了卷积神经网络 (CNN) 在文档布局分析中的应用(He et al., 2015;任等人,2016;He 等人,2018 年;Liu等人,2016;Redmon & Farhadi,2018 年;Yang等人,2017a;Schreiber等人,2017)。随着对文档布局分析性能要求的逐渐提高,越来越多的研究工作对特定的检测模型进行了显著的改进。Yang et al. ( 2017b) 将文档语义结构分析任务视为逐个像素的分类问题。他们提出了一个多模态神经网络,该网络同时考虑了视觉和文本信息。Viana & Oliveira (2017)提出了一个轻量级模型,用于移动和云服务的文档布局分析。该模型使用图像的一维信息进行推理,与使用二维信息的模型相比,具有更高的精度。Chen et al. ( 2017) 介绍了一种基于CNN的手写历史文献图像页面分割方法。Oliveira等人(2018)提出了一种基于CNN的多任务逐像素预测模型。Wick & Puppe ( 2018) 提出了一种用于历史文档分割的高性能全卷积神经网络 (FCN)。Grüning et al. ( 2019) 提出了一种历史文献的两阶段文本行检测方法。Soto和Yoo(2019)将上下文信息合并到Faster R-CNN模型中。该模型利用文章元素的局部不变性来提高区域检测性能。
表检测和识别
在文档布局分析中,表格理解是一项重要且具有挑战性的子任务。与标题和段落等文档元素不同,表格的格式通常变化更大,结构更复杂。因此,围绕表开展了大量的相关工作,其中最重要的两个子任务是表检测和表结构识别。1)表检测是指确定文档中表的边界。(2)表格结构识别是指根据预定义的格式提取表格的语义结构,包括行、列和单元格等信息。
近年来,出现了用于表理解的基准数据集,包括 Marmot (Fang et al., 2012) 和 UNLV (Shahab et al., 2010) 等表检测数据集。同时,ICDAR会议举办了几场关于桌子检测和识别的比赛,提供了高质量的桌子数据集(Göbel等人,2013;Gao等人,2019)。然而,这些传统的基准数据集规模相对较小,难以释放深度神经网络的能力。因此,TableBank(Li et al., 2020a)使用LaTex和Office Word文档来自动构建大规模的表理解数据集。PubTabNet(Zhong et al., 2019a)提出了一个大规模的表数据集,并提供表结构和单元格内容来辅助表识别。TNCR(Abdallah 等人,2021 年)在提供表边界的同时提供表类别的标签。
许多基于深度学习的目标检测模型在表检测方面取得了良好的效果。更快的R-CNN(任等人,2016)通过直接应用于表检测获得了非常好的性能。在此基础上,Siddiqui et al. ( 2018) 通过在 Faster R-CNN 上应用可变形卷积来获得更好的性能。CascadeTabNet(Prasad 等人,2020 年)使用 Cascade R-CNN(Cai & Vasconcelos,2018 年)模型同时执行表检测和表结构识别。TableSense(Dong 等人,2019 年)通过添加单元格特征和采样算法显着提高了表检测功能。
除了以上两个主要的子任务外,解析表的理解也成为了一个新的挑战。TAPAS(Herzig 等人,2020 年)将预训练技术引入表格理解任务。通过引入额外的位置编码层,TAPAS使Transformer(Vaswani等人,2017)编码器能够接受结构化表输入。在对大量表格数据进行预训练后,TAPAS在各种表的下游语义分析任务中明显超越了传统方法。继TAPAS之后,TUTA(Wang et al., 2020a)引入了一个二维坐标来表示结构化表的层次信息,并提出了一种基于树状结构的位置表示和注意力机制来展示该结构的层次建模。结合不同级别的预训练任务,TUTA在多个下游数据集上实现了进一步的性能提升。
5.1.2视觉信息提取
视觉信息抽取是指从大量非结构化视觉丰富的文档中提取语义实体及其关系的技术。不同文档类别的视觉信息提取不同,提取的实体也不同。FUNSD(Guillaume Jaume,2019)是一个表单理解数据集,包含199个表单,其中每个样本都包含表单实体的键值对。SROIE (Huang et al., 2019) 是一个用于收据理解的 OCR 和信息提取基准,引起了研究/行业界的广泛关注。CORD (Park et al., 2019) 是一个收据理解数据集,包含 8 个类别和 54 个实体子类别。Kleister(Stanisławek 等人,2021 年)是一个文档理解数据集,用于长而复杂的文档实体提取任务,包括协议和财务报表等长文本文档。DeepForm(Stray&Svetlichnaya,2020)是一个英语数据集,用于电视上政治广告的披露形式。EAT数据集(Guo et al., 2019)是用于中文文档信息提取的数据集。Yu et al. ( 2021) 进一步向 EATEN 的 400 个子集添加文本框注释。EPHOIE (Wang et al., 2021a) 数据集也是中文文档数据的信息提取数据集。XFUND(Xu et al., 2021b)是用LayoutXLM模型提出的FUNSD数据集的多语言扩展版本,其中包含七种常用语言的视觉丰富的文档。
对于视觉丰富的文档,很多研究将视觉信息提取任务建模为计算机视觉问题,并通过语义分割或文本框检测进行信息提取。考虑到文本信息在视觉信息抽取中也起着重要作用,典型的框架是将文档图像视为像素网格,并在视觉特征图中添加文本特征以获得更好的表示。根据文本信息的粒度,这些方法从字符级别发展到单词级别,然后发展到上下文级别。Chargrid(Katti et al., 2018)使用基于卷积的编码器-解码器网络,通过对字符执行一次性热编码,将文本信息融合到图像中。VisualWordGrid (Kerroumi et al., 2020) 通过用单词级 word2vec 功能替换字符级文本信息并融合视觉信息以提高提取性能来实现 Wordgrid (Katti et al., 2018)。BERTgrid(Denk&Reisswig,2019)使用BERT来获得上下文文本表示,这进一步提高了端到端的准确性。基于BERTgrid,ViBERTgrid(Lin等人,2021)将BERT的文本特征与CNN模型的图像特征融合在一起,从而获得更好的结果。
由于文本信息在视觉丰富的文档中仍然发挥着重要作用,因此许多研究工作将信息提取作为一项特殊的自然语言理解任务。Majumder et al. ( 2020) 根据提取的实体类型生成候选实体,并在形式理解方面取得了良好的结果。TRIE(Zhang et al., 2020)将文本检测和信息提取相结合,允许两个任务相互促进,以获得更好的信息提取结果。Wang et al. ( 2020b) 通过融合三种不同模态来预测文本片段之间的关系,实现形式理解的层次抽取。
视觉丰富的非结构化文档通常由多个相邻的文本片段组成,因此使用图神经网络 (GNN) 进行表示也是很自然的。将文档中的文本片段视为图中的节点,而文本片段之间的关系可以建模为边,从而可以将整个文档表示为图网络。在第 2.2 节中,我们介绍了 GNN 在视觉丰富的文档中进行信息提取的代表性工作(Liu et al., 2019a)。在此基础上,基于GNN进行视觉信息提取的研究工作较多。Hwang et al. ( 2020) 将文档建模为有向图,并通过依赖分析从文档中提取信息。Riba et al. ( 2019) 使用 GNN 模型从发票中提取表格信息。Wei et al. ( 2020) 使用图卷积网络 (GCN) 根据预训练模型的输出对文本布局进行建模,从而改进了信息提取。Cheng et al. ( 2020) 通过将文档表示为图结构并使用基于图的注意力机制和 CRF 模型,在小样本学习中取得了更好的性能。PICK(Yu et al., 2021)模型引入了一个可以基于节点学习的图来表示文档,并在收据理解方面取得了更好的表现。
5.1.3文档图像分类
文档图像分类是指对文档图像进行分类的任务,这对于业务数字化至关重要。RVL-CDIP(Harley等人,2015年)是这项任务的代表性数据集。该数据集包含 16 个文档图像类别的 400,000 个灰度图像。Tabacco-3482(Kumar等人,2014年)选择RVL-CDIP的一个子集进行评估,其中包含3,482个灰度文档图像。
文档图像分类是图像分类的一个特殊子任务,因此自然图像的分类模型也可以解决文档图像分类的问题。Afzal et al. ( 2015) 介绍了一种基于CNN的文档图像分类方法,用于文档图像分类。为了克服样本不足的问题,他们使用使用ImageNet训练的Alexnet作为文档图像模型适配的初始化。Afzal 等人(2017 年)通过迁移学习在文档图像上使用 GoogLeNet、VGG、ResNet 和其他来自自然图像的成功模型。通过模型参数的调整和数据处理,Tensmeyer & Martinez(2017)使用了CNN模型,该模型可以超越以前的模型,而无需从自然图像中迁移学习。Das等人(2018)提出了一种新的基于不同图像区域的卷积网络,用于文档图像分类。该方法将文档的不同区域分别分类,最后合并不同区域的多个分类器,在文档图像分类方面获得显著的性能提升。Sarkhel & Nandi(2019)通过引入金字塔形多尺度结构来提取不同层次的特征。Dauphinee et al. ( 2019) 通过对文档图像进行OCR获取文档的文本,并结合图像和文本特征,进一步提高分类性能。
5.1.4文档可视化问答
文档可视化问答 (VQA) 是文档图像的高级理解任务。具体来说,给定一个文档图像和一个相关问题,模型需要根据给定的图像给出问题的正确答案。图 5 显示了一个具体示例。文档的 VQA 首次出现在 DocVQA 数据集中(Mathew 等人,2021b),其中包含 12,000 多个文档和相应的 5,000 个问题。后来,还提出了 InfographicVQA(Mathew 等人,2021a),它是文档中信息图表图像的 VQA 基准。由于 DocVQA 中的答案相对较短且主题不多样化,一些研究人员还为文档 VQA 任务提出了 VisualMRC(Tanaka 等人,2021 年)数据集,其中包括具有不同主题的长答案。
与传统的VQA任务不同,文档VQA中的文本信息在该任务中起着关键作用,因此现有的代表性方法均以文档图像OCR获取的文本为输入。获取文档文本后,根据不同数据集的特征,将VQA任务建模为不同的问题。对于 DocVQA 数据,大多数问题的答案都以文本片段的形式存在于文档文本中,因此主流方法将其建模为机器阅读理解 (MRC) 问题。通过为模型提供视觉特征和文档文本,模型根据问题从给定文档中提取文本片段作为相应的答案。对于 VisualMRC 数据集,问题的答案通常不会从字面上出现在文档文本片段中,需要更长的抽象答案。因此,一种可行的方法是使用文本生成方法来生成问题的答案。
(a)
(b)
图 5:文档可视化问答示例
5.2通用多模态预训练
尽管上述方法在文档理解任务上取得了良好的性能,但这些方法通常有两个局限性:1)模型通常依赖于有限的标记数据,而忽略了未标记数据中的大量知识。一方面,对于信息提取等文档理解任务,人工对数据进行注释既昂贵又耗时。另一方面,由于现实世界中大量使用视觉丰富的文档,因此存在大量未标记的文档,并且可以利用这些大量未标记的数据进行自我监督的预训练。2)视觉丰富的文档不仅包含大量的文本信息,而且布局和视觉信息丰富。由于数据的局限性,针对特定任务的现有模型通常仅使用预训练的CV模型或NLP模型从相应的模态中获取知识,并且大多数工作仅使用来自单一模态或特征的简单组合的信息,而不是深度融合。Transformer(Vaswani等人,2017)在迁移学习方面的成功证明了深度情境化对于NLP和CV问题的序列建模的重要性。因此,在一个框架中共同学习不同的模式,如文本、布局和视觉信息是显而易见的。
视觉丰富的文档主要涉及三种模式:文本、布局和视觉信息,这些模式在视觉丰富的文档中具有自然的对齐方式。因此,对文档表示进行建模并通过预训练实现跨模态对齐至关重要。LayoutLM (Xu et al., 2020) 和随后的 LayoutLMv2 (Xu et al., 2021a) 模型被提出作为该研究领域的先驱工作。在第 2.3 节中,我们介绍了 LayoutLM,这是一个用于文档 AI 的通用预训练模型。通过文本和布局的联合预训练,LayoutLM在各种文档理解任务中取得了显著的改进。在此基础上,有大量的后续研究工作来完善这个框架。LayoutLM 在预训练过程中没有引入文档视觉信息,因此在 DocVQA 等需要较强视觉感知的任务上,准确性不尽如人意。针对这一问题,LayoutLMv2 (Xu et al., 2021a) 将视觉信息整合到预训练过程中,大大提高了视觉理解能力。具体来说,LayoutLMv2 引入了一种空间感知的自注意力机制,并使用视觉特征作为输入序列的一部分。对于预训练目标,除了掩码视觉语言建模外,LayoutLMv2 还提出了“文本-图像对齐”和“文本-图像匹配”任务。通过这两个方面的改进,模型感知视觉信息的能力得到了实质性的提高,并且在各种下游文档AI任务中明显优于强基线。
视觉丰富的文档一般可以分为两类。第一种是固定布局文档,例如扫描的文档图像和数字生成的 PDF 文件,其中布局和样式信息是预渲染的,独立于软件、硬件或操作系统。此属性使现有的基于布局的预训练方法易于应用于文档理解任务。而第二类是基于标记语言的文档,例如 HTML/XML,其中布局和样式信息需要根据软件、硬件或操作系统以交互方式动态呈现以实现可视化。对于基于标记语言的文档,2D 布局信息不以显式格式存在,但通常需要针对不同的设备(例如手机/平板电脑/台式机)动态渲染,这使得当前基于布局的预训练模型难以应用。为此,建议使用 MarkupLM (Li et al., 2021b) 在基于标记的 VrDU 任务的单一框架中联合预训练文本和标记语言。与固定布局的文档不同,基于标记的文档为通过标记结构学习文档表示提供了另一个视角,因为在预训练期间不能直接使用二维位置信息和文档图像信息。相反,MarkupLM 利用基于树的标记结构来对文档中不同单元之间的关系进行建模。
职位信息
在 LayoutLM 之后,许多研究工作都基于该模型框架进行了改进。其中一个主要方向是改进位置嵌入的方式。一些工作将嵌入表示的位置编码更改为正弦函数,例如 BROS (Hong et al., 2020) 和 StructuralLM (Li et al., 2021a)。BROS (Hong et al., 2020)利用正弦函数进行绝对位置编码,同时在自注意力机制中通过正弦函数引入文本的相对位置信息,提高了模型对空间位置的感知能力。StructuralLM (Li et al., 2021a) 在绝对位置表示中共享文本块中的相同位置信息,这有助于模型理解同一实体中的文本信息,从而进一步改进信息提取。
视觉信息
此外,一些研究工作还进行了进一步的改进,以优化和加强视觉模型。LAMPRET (Wu et al., 2021) 为模型提供了更多的可视化信息来对 Web 文档进行建模,例如字体大小、插图等,这有助于理解丰富的 Web 数据。SelfDoc (Li et al., 2021c) 采用双流结构。对于给定的视觉丰富的文档图像,首先使用预先训练的文档实体检测模型通过对象检测识别文档中的所有语义单元,然后使用OCR识别文本信息。对于已识别的图像区域和文本序列,该模型使用Sentence-BERT(Reimers & Gurevych,2019)和Faster-RCNN(任等人,2016)来提取特征并将其编码为特征向量。跨模态编码器用于使用多模态表示对整个图像进行编码,以服务于下游任务。DocFormer(Appalaraju et al., 2021)采用离散的多模态结构,利用每一层的位置信息将文本和视觉模态结合起来,实现自我关注。DocFormer使用ResNet(He et al., 2015)对图像信息进行编码,以获得更高分辨率的图像特征,同时将文本信息编码为文本嵌入。位置信息分别添加到图像和文本信息中,并分别传递到 Transformer 层。在这种机制下,在缩短输入序列的同时获得了高分辨率的图像信息。同时,通过位置信息对不同模态进行对齐,使模型能够更好地学习视觉丰富文档的跨模态关系。
预训练任务
此外,一些预训练模型针对不同的模态设计了更丰富的预训练任务。例如,除了蒙版视觉语言建模 (MVLM) 之外,BROS (Hong et al., 2020) 还提出了一种区域蒙版语言模型,该模型可以屏蔽随机选择区域中的所有文本块。它可以解释为 SpanBERT 中一维文本的间隔掩码操作(Joshi 等人,2020 年)扩展到二维空间中文本块的间隔掩码。具体来说,该操作包括以下四个步骤:(1)随机选择一个文本块,(2)通过扩展文本块的面积来确定最终区域,(3)确定属于该区域的文本块,(4)屏蔽块内的所有文本并恢复。LAMPRET (Wu et al., 2021) 还引入了网页实体的排序,它允许模型通过预测实体排列的顺序来学习空间位置。同时,该模型还通过删除网页中的图像并通过检索进行匹配来使用图像匹配预训练。这也提高了模型理解多模态信息语义的能力。StructuralLM (Li et al., 2021a) 提出的“单元格位置分类”任务对文档中文本块的相对空间位置进行建模。给定一组扫描文件,此任务旨在预测文件中文本块的位置。首先,将视觉丰富的文档划分为相同大小的 N 个区域。然后,模型通过文本块中心的二维位置计算文本块所属的区域。SelfDoc (Li et al., 2021c) 和 DocFormer (Appalaraju et al., 2021) 还引入了新的预训练任务以及图像输入的改进。 SelfDoc 对图像特征进行遮罩和预测,以更好地学习视觉信息。DocFormer 引入了一个解码器来重建图像信息。在这种情况下,该任务类似于自动编码器的图像重建,但它包含多模态特征,例如文本和位置。借助图像和文本联合预训练,图像重建需要文本和图像的深度融合,从而加强了不同模态之间的交互。
初始化
在模型初始化方面,一些方法使用现有的强大的预训练语言模型来进一步提高其性能,同时也扩展了预训练模型的能力。例如,LAMBERT (Garncarek et al., 2020) 通过使用 RoBERTa (Liu et al., 2019b) 作为预训练初始化来获得更好的性能。除了语言理解之外,一些模型还侧重于扩展模型的语言生成功能。一种常见的做法是使用编码器-解码器模型进行初始化。TILT(Powalski et al., 2021)将布局编码层引入预训练的T5(Raffel et al., 2020)模型中,并结合文档数据进行预训练,使模型能够处理Document AI中的生成任务。LayoutT5 和 LayoutBART (Tanaka et al., 2021) 在文档 VQA 的微调阶段,在 T5 (Raffel et al., 2020) 和 BART (Lewis et al., 2020) 模型之上引入了文本位置编码,以帮助模型更好地理解问题并生成答案。
多种语言
尽管这些模型已成功应用于英语文档,但文档理解任务对于非英语世界也很重要。LayoutXLM (Xu et al., 2021b) 是第一个对其他语言的视觉丰富文档进行多语言预训练的研究工作。基于 LayoutLMv2 的模型结构,LayoutXLM 扩展了 LayoutLM 的语言支持,使用 53 种语言进行预训练。与纯文本的跨语言模型相比,LayoutXLM在视觉丰富的文档的语言扩展能力方面具有明显的优势,这证明了跨语言预训练不仅适用于纯NLP任务,而且对跨语言文档AI任务也有效。
6结论和今后的工作
信息自动化处理是数字化转型的基础和前提。如今,对处理能力、加工速度、加工精度的要求越来越高。以商业领域为例,电子商务单据涵盖了大量复杂的信息,如采购收据、行业报告、商务邮件、销售合同、雇佣协议、商业发票、个人简历等。机器人流程自动化(RPA)行业就是在这样的背景下诞生的,利用人工智能技术帮助大量人员从复杂的电子文档处理任务中解脱出来,同时通过一系列配套的自动化工具提高生产力。RPA 的关键核心之一是文档 AI 技术。在过去的30年里,文档分析主要经历了三个阶段,从早期的启发式规则,到统计机器学习,再到最近的深度学习方法,极大地提高了分析性能和准确性。同时,我们也观察到,以LayoutLM为代表的大规模自监督通用文档级预训练模型也受到了越来越多的关注和使用,并逐渐成为构建更复杂算法的基础单元。最近还出现了不少后续研究工作,这加速了文档人工智能的发展。
对于未来的研究,除了多页/跨页问题、训练数据质量参差不齐、多任务相关性弱、少样本和零样本学习等问题外,我们还需要特别注意OCR与Document AI任务之间的关系,因为Document AI应用的输入通常来自自动OCR模型。文本识别的准确性往往对下游任务有很大的影响。此外,如何将文档AI技术与现有的人类知识,特别是手动文档处理技能相结合,是未来值得探索的一个有趣的研究课题。
引用
- 阿卜杜拉等人(2021 年)阿卜杜勒拉赫曼·阿卜杜拉、亚历山大·别伦捷耶夫、伊斯兰·努拉丁和达尼亚尔·苗里托夫。Tncr:表网检测和分类数据集。arXiv 预印本 arXiv:2106.15322, 2021.
- Afzal 等人(2015 年)穆罕默德·泽山·阿夫扎尔、塞缪尔·卡波比安科、穆罕默德·伊姆兰·马利克、西蒙娜·马里奈、托马斯·布鲁尔、安德烈亚斯·登格尔和马库斯·利维奇。Deepdocclassifier:使用深度卷积神经网络进行文档分类。2015 年第 13 届文件分析与识别国际会议 (ICDAR),第 1111–1115 页。IEEE,2015 年。
- Afzal 等人(2017 年)穆罕默德·泽山·阿夫扎尔、安德烈亚斯·科尔施、谢拉兹·艾哈迈德和马库斯·利维奇。将错误减少一半:对文档图像分类的非常深入的 CNN 和高级训练策略的调查。2017 年第 14 届 IAPR 文件分析与识别国际会议 (ICDAR),第 1 卷,第 883–888 页。IEEE,2017 年。
- Appalaraju 等人(2021 年)Srikar Appalaraju、Bhavan Jasani、Bhargava Urala Kota、Yusheng Xie 和 R Manmatha。Docformer:用于文档理解的端到端转换器。arXiv 预印本 arXiv:2106.11539, 2021.
- Baechler & Ingold (2011年)米歇尔·贝克勒(Micheal Baechler)和罗尔夫·英戈尔德(Rolf Ingold)。使用动态 mlp 对中世纪手稿进行多分辨率布局分析。2011 年文件分析与识别国际会议,第 1185-1189 页。IEEE,2011 年。
- Baird等人(1990)亨利·贝尔德、苏珊·琼斯和史蒂文·J·财富。按形状定向封面进行图像分割。在[1990]诉讼中。第 10 届模式识别国际会议,第 1 卷,第 820–825 页。IEEE,1990年。
- Bansal等人(2014)Anukriti Bansal、Gaurav Harit 和 Sumantra Dutta Roy。使用定点模型从文档图像中提取表格。2014 年印度计算机视觉图形和图像处理会议论文集,第 1-8 页,2014 年。
- Bar-Yosef等人(2009)伊泰·巴尔-约瑟夫、内特·哈格比、克拉拉·凯德姆和伊沙克·丁斯坦。降级的手写历史文档的行分割。2009 年第 10 届文件分析与识别国际会议,第 1161–1165 页。IEEE,2009 年。
- Barlas等人(2014)菲律宾·巴拉斯、塞巴斯蒂安·亚当、克莱门特·查特兰和蒂埃里·帕奎特。用于异构和复杂文档的键入和手写文本块分割系统。2014 年第 11 届 IAPR 文档分析系统国际研讨会,第 46-50 页。IEEE,2014 年。
- 宾马哈申和马哈茂德 (2019)Galal M Binmakhashen 和 Sabri A Mahmoud。文档布局分析:全面调查。ACM 计算调查 (CSUR),52(6):1–36,2019 年。
- 彭博社 (1991) 丹·布隆伯格(Dan S Bloomberg)。用于记录图像分析的多分辨率形态学方法。1991年在法国圣马洛举行的文件分析和识别国际会议论文集。
- 布哈里等人(2009)赛义德·萨奇布·布哈里、费萨尔·沙菲特和托马斯·布鲁尔。使用活动轮廓进行独立于脚本的手写文本行分割。2009 年第 10 届文件分析与识别国际会议,第 446-450 页。IEEE,2009 年。
- 布哈里等人(2010)赛义德·萨奇布·布哈里、梅斯·易卜拉欣·阿里·阿扎维、费萨尔·沙法特和托马斯·布鲁尔。使用对连接组件的判别性学习记录图像分割。第 9 届 IAPR 文档分析系统国际研讨会论文集,第 183-190 页,2010 年。
- 布哈里等人(2012)赛义德·萨奇布·布哈里、托马斯·布鲁尔、阿贝德尔卡迪尔·阿西和吉哈德·萨纳。使用机器学习对阿拉伯历史文档图像进行布局分析。2012 年手写识别前沿国际会议,第 639-644 页。IEEE,2012 年。
- Cai & Vasconcelos (2018年)蔡朝伟和努诺·瓦斯康塞洛斯。Cascade r-cnn:深入研究高质量的物体检测。IEEE计算机视觉和模式识别会议论文集,第6154-6162页,2018年。
- Chen & Lopresti (2011年)Jin Chen 和 Daniel Lopresti。在嘈杂的离线手写文档中进行表检测。2011 年文件分析与识别国际会议,第 399-403 页。IEEE,2011 年。
- Chen et al. (2017)Kai Chen, Mathias Seuret, Jean Hennebert, and Rolf Ingold.Convolutional neural networks for page segmentation of historical document images.In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 1, pp. 965–970. IEEE, 2017.
- Chen et al. (2021)Lu Chen, Xingyu Chen, Zihan Zhao, Danyang Zhang, Jiabao Ji, Ao Luo, Yuxuan Xiong, and Kai Yu.Websrc: A dataset for web-based structural reading comprehension, 2021.
- Cheng et al. (2020)Mengli Cheng, Minghui Qiu, Xing Shi, Jun Huang, and Wei Lin.One-shot text field labeling using attention and belief propagation for structure information extraction.In Proceedings of the 28th ACM International Conference on Multimedia, pp. 340–348, 2020.
- Das et al. (2018)Arindam Das, Saikat Roy, Ujjwal Bhattacharya, and Swapan K Parui.Document image classification with intra-domain transfer learning and stacked generalization of deep convolutional neural networks.In 2018 24th International Conference on Pattern Recognition (ICPR), pp. 3180–3185. IEEE, 2018.
- Dauphinee et al. (2019)Tyler Dauphinee, Nikunj Patel, and Mohammad Rashidi.Modular multimodal architecture for document classification.arXiv preprint arXiv:1912.04376, 2019.
- Denk & Reisswig (2019)Timo I Denk and Christian Reisswig.Bertgrid: Contextualized embedding for 2d document representation and understanding.arXiv preprint arXiv:1909.04948, 2019.
- Desai et al. (2021)Harsh Desai, Pratik Kayal, and Mayank Singh.Tablex: A benchmark dataset for structure and content information extraction from scientific tables, 2021.
- Dietterich et al. (1997)Thomas G Dietterich, Richard H Lathrop, and Tomás Lozano-Pérez.Solving the multiple instance problem with axis-parallel rectangles.Artificial intelligence, 89(1-2):31–71, 1997.
- Dong et al. (2019)Haoyu Dong, Shijie Liu, Shi Han, Zhouyu Fu, and Dongmei Zhang.Tablesense: Spreadsheet table detection with convolutional neural networks.In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pp. 69–76, 2019.
- e Silva (2009)Ana Costa e Silva.Learning rich hidden markov models in document analysis: Table location.In 2009 10th International Conference on Document Analysis and Recognition, pp. 843–847. IEEE, 2009.
- Esposito et al. (1990)Floriana Esposito, Donato Malerba, Giovanni Semeraro, Enrico Annese, and Giovanna Scafuro.An experimental page layout recognition system for office document automatic classification: an integrated approach for inductive generalization.In [1990] Proceedings. 10th International Conference on Pattern Recognition, volume 1, pp. 557–562. IEEE, 1990.
- Esposito et al. (2008)Floriana Esposito, Stefano Ferilli, Teresa MA Basile, and Nicola Di Mauro.Machine learning for digital document processing: From layout analysis to metadata extraction.In Machine learning in document analysis and recognition, pp. 105–138. Springer, 2008.
- Fang et al. (2012)Jing Fang, Xin Tao, Zhi Tang, Ruiheng Qiu, and Ying Liu.Dataset, ground-truth and performance metrics for table detection evaluation.In 2012 10th IAPR International Workshop on Document Analysis Systems, pp. 445–449. IEEE, 2012.
- Fisher et al. (1990)James L Fisher, Stuart C Hinds, and Donald P D’Amato.A rule-based system for document image segmentation.In [1990] Proceedings. 10th International Conference on Pattern Recognition, volume 1, pp. 567–572. IEEE, 1990.
- Gao et al. (2019)Liangcai Gao, Yilun Huang, Hervé Déjean, Jean-Luc Meunier, Qinqin Yan, Yu Fang, Florian Kleber, and Eva Lang.Icdar 2019 competition on table detection and recognition (ctdar).In 2019 International Conference on Document Analysis and Recognition (ICDAR), pp. 1510–1515, 2019.doi: 10.1109/ICDAR.2019.00243.
- Garncarek et al. (2020)Łukasz Garncarek, Rafał Powalski, Tomasz Stanisławek, Bartosz Topolski, Piotr Halama, Michał Turski, and Filip Graliński.Lambert: Layout-aware (language) modeling for information extraction.arXiv preprint arXiv:2002.08087, 2020.
- Göbel et al. (2013)Max C. Göbel, Tamir Hassan, Ermelinda Oro, and G. Orsi.Icdar 2013 table competition.2013 12th International Conference on Document Analysis and Recognition, pp. 1449–1453, 2013.
- Grüning et al. (2019)Tobias Grüning, Gundram Leifert, Tobias Strauß, Johannes Michael, and Roger Labahn.A two-stage method for text line detection in historical documents.International Journal on Document Analysis and Recognition (IJDAR), 22(3):285–302, 2019.
- Guillaume Jaume (2019)Jean-Philippe Thiran Guillaume Jaume, Hazim Kemal Ekenel.Funsd: A dataset for form understanding in noisy scanned documents.In Accepted to ICDAR-OST, 2019.
- Guo et al. (2019)He Guo, Xiameng Qin, Jiaming Liu, Junyu Han, Jingtuo Liu, and Errui Ding.Eaten: Entity-aware attention for single shot visual text extraction, 2019.
- Hao et al. (2011)Qiang Hao, Rui Cai, Yanwei Pang, and Lei Zhang.From one tree to a forest: A unified solution for structured web data extraction.In Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR ’11, pp. 775–784, New York, NY, USA, 2011. Association for Computing Machinery.ISBN 9781450307574.doi: 10.1145/2009916.2010020.URL From one tree to a forest | Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval.
- Harley et al. (2015)Adam W Harley, Alex Ufkes, and Konstantinos G Derpanis.Evaluation of deep convolutional nets for document image classification and retrieval.In International Conference on Document Analysis and Recognition (ICDAR), 2015.
- He et al. (2015)Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition, 2015.
- He et al. (2018)Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick.Mask r-cnn, 2018.
- Herzig et al. (2020)Jonathan Herzig, Paweł Krzysztof Nowak, Thomas Müller, Francesco Piccinno, and Julian Martin Eisenschlos.Tapas: Weakly supervised table parsing via pre-training.arXiv preprint arXiv:2004.02349, 2020.
- Hong et al. (2020)Teakgyu Hong, DongHyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, and Sungrae Park.Bros: A pre-trained language model for understanding texts in document.2020.
- Huang et al. (2019)Zheng Huang, Kai Chen, Jianhua He, Xiang Bai, Dimosthenis Karatzas, Shijian Lu, and C. V. Jawahar.Icdar2019 competition on scanned receipt ocr and information extraction.2019 International Conference on Document Analysis and Recognition (ICDAR), Sep 2019.doi: 10.1109/icdar.2019.00244.URL ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction | IEEE Conference Publication | IEEE Xplore.
- Hwang et al. (2020)Wonseok Hwang, Jinyeong Yim, Seunghyun Park, Sohee Yang, and Minjoon Seo.Spatial dependency parsing for semi-structured document information extraction.arXiv preprint arXiv:2005.00642, 2020.
- Joshi et al. (2020)Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, and Omer Levy.Spanbert: Improving pre-training by representing and predicting spans.Transactions of the Association for Computational Linguistics, 8:64–77, 2020.
- Kasar et al. (2013)Thotreingam Kasar, Philippine Barlas, Sebastien Adam, Clément Chatelain, and Thierry Paquet.Learning to detect tables in scanned document images using line information.In 2013 12th International Conference on Document Analysis and Recognition, pp. 1185–1189. IEEE, 2013.
- Katti et al. (2018)Anoop R Katti, Christian Reisswig, Cordula Guder, Sebastian Brarda, Steffen Bickel, Johannes Höhne, and Jean Baptiste Faddoul.Chargrid: Towards understanding 2D documents.In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp. 4459–4469, Brussels, Belgium, October-November 2018. Association for Computational Linguistics.doi: 10.18653/v1/D18-1476.URL Chargrid: Towards Understanding 2D Documents - ACL Anthology.
- Kerroumi et al. (2020)Mohamed Kerroumi, Othmane Sayem, and Aymen Shabou.Visualwordgrid: Information extraction from scanned documents using a multimodal approach.arXiv preprint arXiv:2010.02358, 2020.
- Kise et al. (1998)Koichi Kise, Akinori Sato, and Motoi Iwata.Segmentation of page images using the area voronoi diagram.Computer Vision and Image Understanding, 70(3):370–382, 1998.
- Kumar et al. (2014)J. Kumar, Peng Ye, and D. Doermann.Structural similarity for document image classification and retrieval.Pattern Recognit. Lett., 43:119–126, 2014.
- Lewis et al. (2020)Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer.BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension.In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 7871–7880, Online, July 2020. Association for Computational Linguistics.doi: 10.18653/v1/2020.acl-main.703.URL BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension - ACL Anthology.
- Li et al. (2021a)Chenliang Li, Bin Bi, Ming Yan, Wei Wang, Songfang Huang, Fei Huang, and Luo Si.Structurallm: Structural pre-training for form understanding.arXiv preprint arXiv:2105.11210, 2021a.
- Li et al. (2021b)Junlong Li, Yiheng Xu, Lei Cui, and Furu Wei.Markuplm: Pre-training of text and markup language for visually-rich document understanding, 2021b.
- Li et al. (2020a)Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou, and Zhoujun Li.TableBank: Table benchmark for image-based table detection and recognition.In Proceedings of the 12th Language Resources and Evaluation Conference, pp. 1918–1925, Marseille, France, May 2020a. European Language Resources Association.ISBN 979-10-95546-34-4.URL TableBank: Table Benchmark for Image-based Table Detection and Recognition - ACL Anthology.
- Li et al. (2020b)Minghao Li, Yiheng Xu, Lei Cui, Shaohan Huang, Furu Wei, Zhoujun Li, and Ming Zhou.DocBank: A benchmark dataset for document layout analysis.In Proceedings of the 28th International Conference on Computational Linguistics, pp. 949–960, Barcelona, Spain (Online), December 2020b. International Committee on Computational Linguistics.doi: 10.18653/v1/2020.coling-main.82.URL DocBank: A Benchmark Dataset for Document Layout Analysis - ACL Anthology.
- Li et al. (2021c)Peizhao Li, Jiuxiang Gu, Jason Kuen, Vlad I Morariu, Handong Zhao, Rajiv Jain, Varun Manjunatha, and Hongfu Liu.Selfdoc: Self-supervised document representation learning.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 5652–5660, 2021c.
- Li et al. (2013)Quannan Li, Jingdong Wang, David Wipf, and Zhuowen Tu.Fixed-point model for structured labeling.In International conference on machine learning, pp. 214–221. PMLR, 2013.
- Lin et al. (2021)Weihong Lin, Qifang Gao, Lei Sun, Zhuoyao Zhong, Kai Hu, Qin Ren, and Qiang Huo.Vibertgrid: A jointly trained multi-modal 2d document representation for key information extraction from documents.arXiv preprint arXiv:2105.11672, 2021.
- Liu et al. (2016)Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C. Berg.Ssd: Single shot multibox detector.Lecture Notes in Computer Science, pp. 21–37, 2016.ISSN 1611-3349.doi: 10.1007/978-3-319-46448-0˙2.URL SSD: Single Shot MultiBox Detector | SpringerLink.
- Liu et al. (2019a)Xiaojing Liu, Feiyu Gao, Qiong Zhang, and Huasha Zhao.Graph convolution for multimodal information extraction from visually rich documents.In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Industry Papers), pp. 32–39, Minneapolis, Minnesota, June 2019a. Association for Computational Linguistics.doi: 10.18653/v1/N19-2005.URL Graph Convolution for Multimodal Information Extraction from Visually Rich Documents - ACL Anthology.
- Liu et al. (2019b)Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov.Roberta: A robustly optimized bert pretraining approach.ArXiv, abs/1907.11692, 2019b.
- Majumder et al. (2020)Bodhisattwa Prasad Majumder, Navneet Potti, Sandeep Tata, James Bradley Wendt, Qi Zhao, and Marc Najork.Representation learning for information extraction from form-like documents.In proceedings of the 58th annual meeting of the Association for Computational Linguistics, pp. 6495–6504, 2020.
- Mathew et al. (2021a)Minesh Mathew, Viraj Bagal, Rubèn Pérez Tito, Dimosthenis Karatzas, Ernest Valveny, and C. V Jawahar.Infographicvqa, 2021a.
- Mathew et al. (2021b)Minesh Mathew, Dimosthenis Karatzas, and C. V. Jawahar.Docvqa: A dataset for vqa on document images, 2021b.
- Mondal et al. (2020)Ajoy Mondal, Peter Lipps, and CV Jawahar.Iiit-ar-13k: a new dataset for graphical object detection in documents.In International Workshop on Document Analysis Systems, pp. 216–230. Springer, 2020.
- Nagy & Seth (1984)George Nagy and Sharad C Seth.Hierarchical representation of optically scanned documents.1984.
- O’Gorman (1993)Lawrence O’Gorman.The document spectrum for page layout analysis.IEEE Transactions on pattern analysis and machine intelligence, 15(11):1162–1173, 1993.
- Okamoto & Takahashi (1993)Masayuki Okamoto and Makoto Takahashi.A hybrid page segmentation method.In Proceedings of 2nd International Conference on Document Analysis and Recognition (ICDAR’93), pp. 743–746. IEEE, 1993.
- Oliveira et al. (2018)Sofia Ares Oliveira, Benoit Seguin, and Frederic Kaplan.dhsegment: A generic deep-learning approach for document segmentation.In 2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR), pp. 7–12. IEEE, 2018.
- Park et al. (2019)Seunghyun Park, Seung Shin, Bado Lee, Junyeop Lee, Jaeheung Surh, Minjoon Seo, and Hwalsuk Lee.Cord: A consolidated receipt dataset for post-ocr parsing.2019.
- Pinto et al. (2003)David Pinto, Andrew McCallum, Xing Wei, and W Bruce Croft.Table extraction using conditional random fields.In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, pp. 235–242, 2003.
- Powalski et al. (2021)Rafał Powalski, Łukasz Borchmann, Dawid Jurkiewicz, Tomasz Dwojak, Michał Pietruszka, and Gabriela Pałka.Going full-tilt boogie on document understanding with text-image-layout transformer.arXiv preprint arXiv:2102.09550, 2021.
- Prasad et al. (2020)Devashish Prasad, Ayan Gadpal, Kshitij Kapadni, Manish Visave, and Kavita Sultanpure.Cascadetabnet: An approach for end to end table detection and structure recognition from image-based documents.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pp. 572–573, 2020.
- Raffel et al. (2020)Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu.Exploring the limits of transfer learning with a unified text-to-text transformer.Journal of Machine Learning Research, 21(140):1–67, 2020.URL Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.
- Rashid et al. (2017)Sheikh Faisal Rashid, Abdullah Akmal, Muhammad Adnan, Ali Adnan Aslam, and Andreas Dengel.Table recognition in heterogeneous documents using machine learning.In 2017 14th IAPR International conference on document analysis and recognition (ICDAR), volume 1, pp. 777–782. IEEE, 2017.
- Redmon & Farhadi (2018)Joseph Redmon and Ali Farhadi.Yolov3: An incremental improvement.arXiv, 2018.
- Reimers & Gurevych (2019)Nils Reimers and Iryna Gurevych.Sentence-BERT: Sentence embeddings using Siamese BERT-networks.In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pp. 3982–3992, Hong Kong, China, November 2019. Association for Computational Linguistics.doi: 10.18653/v1/D19-1410.URL Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks - ACL Anthology.
- Ren et al. (2016)Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.Faster r-cnn: towards real-time object detection with region proposal networks.IEEE transactions on pattern analysis and machine intelligence, 39(6):1137–1149, 2016.
- Riba et al. (2019)Pau Riba, Anjan Dutta, Lutz Goldmann, Alicia Fornés, Oriol Ramos, and Josep Lladós.Table detection in invoice documents by graph neural networks.In 2019 International Conference on Document Analysis and Recognition (ICDAR), pp. 122–127. IEEE, 2019.
- Saitoh et al. (1993)Takashi Saitoh, Michiyoshi Tachikawa, and Toshifumi Yamaai.Document image segmentation and text area ordering.In Proceedings of 2nd International Conference on Document Analysis and Recognition (ICDAR’93), pp. 323–329. IEEE, 1993.
- Sarkhel & Nandi (2019)Ritesh Sarkhel and Arnab Nandi.Deterministic routing between layout abstractions for multi-scale classification of visually rich documents.In 28th International Joint Conference on Artificial Intelligence (IJCAI), 2019, 2019.
- Schreiber et al. (2017)Sebastian Schreiber, Stefan Agne, Ivo Wolf, Andreas Dengel, and Sheraz Ahmed.Deepdesrt: Deep learning for detection and structure recognition of tables in document images.In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 01, pp. 1162–1167, 2017.doi: 10.1109/ICDAR.2017.192.
- Shahab et al. (2010)Asif Shahab, Faisal Shafait, Thomas Kieninger, and Andreas Dengel.An open approach towards the benchmarking of table structure recognition systems.In Proceedings of the 9th IAPR International Workshop on Document Analysis Systems, DAS ’10, pp. 113–120, New York, NY, USA, 2010. Association for Computing Machinery.ISBN 9781605587738.doi: 10.1145/1815330.1815345.URL An open approach towards the benchmarking of table structure recognition systems | Proceedings of the 9th IAPR International Workshop on Document Analysis Systems.
- Shi & Govindaraju (2004)Zhixin Shi and Venu Govindaraju.Line separation for complex document images using fuzzy runlength.In First International Workshop on Document Image Analysis for Libraries, 2004. Proceedings., pp. 306–312. IEEE, 2004.
- Siddiqui et al. (2018)Shoaib Ahmed Siddiqui, Muhammad Imran Malik, Stefan Agne, Andreas Dengel, and Sheraz Ahmed.Decnt: Deep deformable cnn for table detection.IEEE Access, 6:74151–74161, 2018.
- Smith (2009)Raymond W Smith.Hybrid page layout analysis via tab-stop detection.In 2009 10th International Conference on Document Analysis and Recognition, pp. 241–245. IEEE, 2009.
- Smock et al. (2021)Brandon Smock, Rohith Pesala, and Robin Abraham.Pubtables-1m: Towards a universal dataset and metrics for training and evaluating table extraction models, 2021.
- Soto & Yoo (2019)Carlos Soto and Shinjae Yoo.Visual detection with context for document layout analysis.In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pp. 3462–3468, Hong Kong, China, November 2019. Association for Computational Linguistics.doi: 10.18653/v1/D19-1348.URL Visual Detection with Context for Document Layout Analysis - ACL Anthology.
- Stanisławek et al. (2021)Tomasz Stanisławek, Filip Graliński, Anna Wróblewska, Dawid Lipiński, Agnieszka Kaliska, Paulina Rosalska, Bartosz Topolski, and Przemysław Biecek.Kleister: Key information extraction datasets involving long documents with complex layouts, 2021.
- Stray & Svetlichnaya (2020)Jonathan Stray and Stacey Svetlichnaya.Project deepform: Extract information from documents, 2020.URL Weights & Biases.
- Sylwester & Seth (1995)Don Sylwester and Sharad Seth.A trainable, single-pass algorithm for column segmentation.In Proceedings of 3rd International Conference on Document Analysis and Recognition, volume 2, pp. 615–618. IEEE, 1995.
- Tanaka et al. (2021)Ryota Tanaka, Kyosuke Nishida, and Sen Yoshida.Visualmrc: Machine reading comprehension on document images.arXiv preprint arXiv:2101.11272, 2021.
- Tensmeyer & Martinez (2017)Chris Tensmeyer and Tony Martinez.Analysis of convolutional neural networks for document image classification.In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 1, pp. 388–393. IEEE, 2017.
- Vaswani et al. (2017)Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin.Attention is all you need.In Advances in neural information processing systems, pp. 5998–6008, 2017.
- Viana & Oliveira (2017)Matheus Palhares Viana and Dário Augusto Borges Oliveira.Fast cnn-based document layout analysis.2017 IEEE International Conference on Computer Vision Workshops (ICCVW), pp. 1173–1180, 2017.
- Wang et al. (2021a)Jiapeng Wang, Chongyu Liu, Lianwen Jin, Guozhi Tang, Jiaxin Zhang, Shuaitao Zhang, Qianying Wang, Yaqiang Wu, and Mingxiang Cai.Towards robust visual information extraction in real world: New dataset and novel solution.In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pp. 2738–2745, 2021a.
- Wang et al. (2000)Yalin Wang, Robert Haralick, and Ihsin T Phillips.Improvement of zone content classification by using background analysis.In Fourth IAPR International Workshop on Document Analysis Systems.(DAS2000). Citeseer, 2000.
- Wang et al. (2002)Yalin Wang, Ihsin T Phillips, and Robert M Haralick.Table detection via probability optimization.In International Workshop on Document Analysis Systems, pp. 272–282. Springer, 2002.
- Wang et al. (2020a)Zhiruo Wang, Haoyu Dong, Ran Jia, Jia Li, Zhiyi Fu, Shi Han, and Dongmei Zhang.Structure-aware pre-training for table understanding with tree-based transformers.arXiv preprint arXiv:2010.12537, 2020a.
- Wang et al. (2020b)Zilong Wang, Mingjie Zhan, Xuebo Liu, and Ding Liang.Docstruct: A multimodal method to extract hierarchy structure in document for general form understanding.arXiv preprint arXiv:2010.11685, 2020b.
- Wang et al. (2021b)Zilong Wang, Yiheng Xu, Lei Cui, Jingbo Shang, and Furu Wei.Layoutreader: Pre-training of text and layout for reading order detection, 2021b.
- Wangt et al. (2001)Yalin Wangt, Ihsin T Phillipst, and Robert Haralick.Automatic table ground truth generation and a background-analysis-based table structure extraction method.In Proceedings of Sixth International Conference on Document Analysis and Recognition, pp. 528–532. IEEE, 2001.
- Wei et al. (2013)Hao Wei, Micheal Baechler, Fouad Slimane, and Rolf Ingold.Evaluation of svm, mlp and gmm classifiers for layout analysis of historical documents.In 2013 12th International Conference on Document Analysis and Recognition, pp. 1220–1224. IEEE, 2013.
- Wei et al. (2020)Mengxi Wei, Yifan He, and Qiong Zhang.Robust layout-aware ie for visually rich documents with pre-trained language models.In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 2367–2376, 2020.
- Wick & Puppe (2018)Christoph Wick and Frank Puppe.Fully convolutional neural networks for page segmentation of historical document images.In 2018 13th IAPR International Workshop on Document Analysis Systems (DAS), pp. 287–292. IEEE, 2018.
- Wong et al. (1982)Kwan Y. Wong, Richard G. Casey, and Friedrich M. Wahl.Document analysis system.IBM journal of research and development, 26(6):647–656, 1982.
- Wu et al. (2008)Chung-Chih Wu, Chien-Hsing Chou, and Fu Chang.A machine-learning approach for analyzing document layout structures with two reading orders.Pattern recognition, 41(10):3200–3213, 2008.
- Wu et al. (2021)Te-Lin Wu, Cheng Li, Mingyang Zhang, Tao Chen, Spurthi Amba Hombaiah, and Michael Bendersky.Lampret: Layout-aware multimodal pretraining for document understanding.arXiv preprint arXiv:2104.08405, 2021.
- Xiao & Yan (2003)Yi Xiao and Hong Yan.Text region extraction in a document image based on the delaunay tessellation.Pattern Recognition, 36(3):799–809, 2003.
- Xu et al. (2021a)Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, and Lidong Zhou.LayoutLMv2: Multi-modal pre-training for visually-rich document understanding.In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pp. 2579–2591, Online, August 2021a. Association for Computational Linguistics.doi: 10.18653/v1/2021.acl-long.201.URL LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding - ACL Anthology.
- Xu et al. (2020)Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, and Ming Zhou.LayoutLM: Pre-training of text and layout for document image understanding.In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD ’20, pp. 1192–1200, New York, NY, USA, 2020. Association for Computing Machinery.ISBN 9781450379984.doi: 10.1145/3394486.3403172.URL LayoutLM: Pre-training of Text and Layout for Document Image Understanding | Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.
- Xu et al. (2021b)Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, and Furu Wei.LayoutXLM: Multimodal pre-training for multilingual visually-rich document understanding, 2021b.
- Yang et al. (2017a)Xiao Yang, Ersin Yumer, Paul Asente, Mike Kraley, Daniel Kifer, and C. Lee Giles.Learning to extract semantic structure from documents using multimodal fully convolutional neural network, 2017a.
- Yang et al. (2017b)Xiaowei Yang, Ersin Yumer, Paul Asente, Mike Kraley, Daniel Kifer, and C. Lee Giles.Learning to extract semantic structure from documents using multimodal fully convolutional neural networks.2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4342–4351, 2017b.
- Yepes et al. (2021)Antonio Jimeno Yepes, Xu Zhong, and Douglas Burdick.Icdar 2021 competition on scientific literature parsing, 2021.
- Yu et al. (2021)Wenwen Yu, Ning Lu, Xianbiao Qi, Ping Gong, and Rong Xiao.Pick: Processing key information extraction from documents using improved graph learning-convolutional networks.In 2020 25th International Conference on Pattern Recognition (ICPR), pp. 4363–4370. IEEE, 2021.
- Zhang et al. (2020)Peng Zhang, Yunlu Xu, Zhanzhan Cheng, Shiliang Pu, Jing Lu, Liang Qiao, Yi Niu, and Fei Wu.Trie: End-to-end text reading and information extraction for document understanding.In Proceedings of the 28th ACM International Conference on Multimedia, pp. 1413–1422, 2020.
- Zhong et al. (2019a)Xu Zhong, Elaheh ShafieiBavani, and Antonio Jimeno Yepes.Image-based table recognition: data, model, and evaluation.arXiv preprint arXiv:1911.10683, 2019a.
- Zhong et al. (2019b)Xu Zhong, Jianbin Tang, and Antonio Jimeno Yepes.Publaynet: largest dataset ever for document layout analysis.In 2019 International Conference on Document Analysis and Recognition (ICDAR), pp. 1015–1022. IEEE, Sep. 2019b.doi: 10.1109/ICDAR.2019.00166.