Bootstrap

如何用java获取word文件的每个章节内容

引入Spire.doc.jar

直接官网下载jar或者引入maven依赖,这里我使用jar包的方式

读取章节内容的原理

先获取文档每一段的样式,判断样式是否为标题一,然后与下个标题一之间的内容全部读出来,循环读取。(如果word文档的每个章节都有分节符,直接使用getSections()方法即可,但是大多数文件都不会有分节符T_T)

代码示例

@Test
    public void readDoc() {
   
        Document doc = new Document();
//        doc.loadFromStream(new FileInputStream(new File("C:\\Users\\13404\\Desktop\\文本\\调研报告.doc")), FileFormat.Auto);
        doc.loadFromFile("C:\\Users\\13404\\Desktop\\可研\\可行性研究报告0123.doc");
        //遍历section,section为文件的小节,通过分节符来识别
        for (int i = 0; i < doc.getSections()
;