python如何解析word文件格式（.docx）

.docx文件遵从开源的“Office Open XML标准”，这意味着我们能用python的文本操作对它进行操作（实际上PPT和Excel也是）。而且这并不是重复造轮子，因为市面上操作.docx的库限制性非常强：

python-docx是开源的，但不支持高级操作，例如增加批注、修订等。
spire.doc支持高级操作，但需要商业许可
微软开放了word的api接口，但不是跨平台的。只支持win平台，且学习门槛较高

所以我们从开源的标准入手，用python实现操作word文件的功能。

看下图，把.docx文件的后缀手动改为.zip竟然可以直接解压。原来.docx本质上是一个zip压缩包。

请添加图片描述

解压后的word文件漏出了他的真实面目。原来.docx由很多.xml文件（及其他）组成。注意下图框出的word/document.xml，他是我们操作word文件的主角（有些高级功能不在其中，比如批注在另外的xml中）。因为其中记录了word文档的文本、字体、段落格式等。.xml是一个纯文本文件，理论上我们用python可以操作word/document.xml中定义的任何元素。

请添加图片描述

解释一下.xml格式：你可以粗略的把它理解为.html。区别在于.html的标记是预先定义好的，.xml的标记由架构或文档的作者定义，并且是无限制的。如果你没有接触过的话，我建议百度一下，有助于理解下面的内容。

我举个例子来看一下word/document.xml的结构，具体的含义写在注释里了：

<w:document xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main">  # 注意这行，下文要用到！
    <w:body>  # body是文档的主体，是个nodelist，一般只有一个元素
        <w:p w:rsidR="00F921A6" w:rsidRDefault="00000000">  # p代表paragraph段落
            <w:pPr>  # pPr是段落属性
                <w:numPr>
                    <w:ilvl w:val="255"/>
                    <w:numId w:val="0"/>
                </w:numPr>
                <w:pBdr>  # 段落边框
                    <w:top w:val="none" w:sz="0" w:space="0" w:color="000000"/>
                    <w:left w:val="none" w:sz="0" w:space="0" w:color="000000"/>
                    <w:bottom w:val="none" w:sz="0" w:space="7" w:color="000000"/>
                    <w:right w:val="none" w:sz="0" w:space="0" w:color="000000"/>
                </w:pBdr>
                <w:widowControl/>  # 控制孤行
                <w:spacing w:line="560" w:lineRule="exact"/>  # 行间距
                <w:ind w:firstLineChars="200" w:firstLine="640"/>  # 首行缩进
                <w:outlineLvl w:val="1"/>  # 标题级别
                <w:rPr>  # rPr是段落内的文本属性
                    <w:rFonts w:ascii="方正仿宋_GBK" w:eastAsia="方正仿宋_GBK" w:hAnsi="Times New Roman"/>
                    <w:kern w:val="0"/>
                    <w:sz w:val="32"/>
                    <w:szCs w:val="32"/>
                </w:rPr>
            </w:pPr>
            <w:r>  # r代表run，可以理解为连续的文本块
                <w:rPr>  # rPr是文本属性
                    <w:rFonts w:ascii="方正楷体_GBK" w:eastAsia="方正楷体_GBK" w:hAnsi="Times New Roman" w:hint="eastAsia"/>  # 字体
                    <w:kern w:val="0"/>  # 字间距
                    <w:sz w:val="32"/>  # 字号
                    <w:szCs w:val="32"/>  # 字号？不知道
                </w:rPr>
                <w:t>这是一段word中的文本</w:t>  # t是文本
            </w:r>
        </w:p>
    </w:body>
</w:document>

注意看上面xml的第一行，xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main"定义了document及其子元素的命名空间。xmlns用来声明属性，比如这里xmlns:w代表绑定了w为前缀，那么子元素中所有前缀为w的都绑定到命名空间"http://schemas.openxmlformats.org/wordprocessingml/2006/main"。为什么要着重讲命名空间呢？因为docx的前缀不是统一的，比如Microsoft Word一般用w，但是wps就不用w了，记得在操作之前先确定命名空间。

以上只是举个列子，实际上各种标记种类和用法非常多。具体的标记用法参考OOXML标准，你可以在下图画红框的地方查找（仅适用于Microsoft Word）。

OOXML标准的中文翻译：https://hellowac.github.io/ecma-376-zh-cn/

本文言尽于此，后面我会再把python的源码开放出来。

1.17更新：源码不放了，python-doc支持修订和批注了。

python如何解析word文件格式（.docx）

python如何解析word文件格式（.docx）

悦读