python docx 使用总结

Python015

python docx 使用总结,第1张

本文将总结之前在使用 python-docx 包处理 word 文档时的一些理解与经验。

安装

引入

python-docx 将整个文章看做是一个 Document 对象 官方文档 - Document ,其基本结构如下:

在 python-docx 中, run 是最基本的单位,每个 run 对象内的文本样式都是一致的,也就是说,在从 docx 文件生成文档对象时, python-docx 会根据样式的变化来将文本切分为一个个的 Run 对象。

你也可以通过它来处理表格 官方文档 - 表格 ,基本结构如下:

首先通过 pip 安装 python-docx,命令为 pip install python-docx 。

python-docx 使用 Document 对象来表示整个 docx 文档。其内部包含 一个Paragraph 对象列表。每个 Paragraph 对应 docx 文档的一个段落。

word 文档中除了字符串,还包含字体、大小、颜色等样式信息。相同样式的连续字符串,就会被保存在一个 Run 对象中。

假设 docx 文档中有下面这些内容:

那么经过 python-docx 解析,就会生成 3 个 Run 对象: