python 将word转化为html

html-css0217

python 将word转化为html,第1张

pip install pydocx

from pydocx import PyDocX

html = PyDocX.to_html("test.docx")

f = open("test.html", 'w', encoding="utf-8")

f.write(html)

f.close()

通过网页上传word文档,只接收docx

<form method="post" enctype="multipart/form-data">

<input type="file" name="file" accept="application/vnd.openxmlformats-officedocument.wordprocessingml.document">

</form>

windows下,将doc转为docx

pip3 install pypiwin32

from win32com import client

word = client.Dispatch("Word.Application")

doc = word.Documents.Open("D:\ \ .doc") //绝对路径 doc文件

doc.SaveAs("D:\ \ .docx",16) //保存的docx 文件,绝对路径

doc.Close()

word.Quit()

可以通过Spire.Doc for Java进行转换。

首先需要安装Spire.Doc for Java。可在 Java 程序中添加 Spire.Doc for Java 文件作为依赖项。JAR 文件可以从此链接下载。 如果您使用 Maven,则可以将以下代码添加到项目的 pom.xml 文件中,从而轻松地在应用程序中导入 JAR 文件。

<repositories>

<repository>

<id>com.e-iceblue</id>

<name>e-iceblue</name>

<url>https://repo.e-iceblue.cn/repository/maven-public/</url>

</repository></repositories><dependencies>

<dependency>

<groupId>e-iceblue</groupId>

<artifactId>spire.doc</artifactId>

<version>5.2.3</version>

</dependency></dependencies>

Java代码如下:

mport com.spire.doc.*public class WordtoHtml {

public static void main(String[] args) {

//实例化Document类的对象

Document  doc = new Document()

//加载Word文档

doc.loadFromFile("inputfile.docx")

//保存为HTML格式

doc.saveToFile("ToHtml.html",FileFormat.Html)

doc.dispose()

}

}

希望对您有帮助。

doc.Close()

word.Quit()

from docx2html import convert

import HTMLParser

html_parser = HTMLParser.HTMLParser()

html = convert('G:/T.docx') #使用docx2html模块将docx文件转成html串,随后你想干嘛都行

print html_parser.unescape(html) #这句非常关键,docx2html模块将中文进行了转义,所以要将生成的字符串重新转义回来!