pip install pydocx
from pydocx import PyDocX
html = PyDocX.to_html("test.docx")
f = open("test.html", 'w', encoding="utf-8")
f.write(html)
f.close()
通过网页上传word文档,只接收docx
<form method="post" enctype="multipart/form-data">
<input type="file" name="file" accept="application/vnd.openxmlformats-officedocument.wordprocessingml.document">
</form>
windows下,将doc转为docx
pip3 install pypiwin32
from win32com import client
word = client.Dispatch("Word.Application")
doc = word.Documents.Open("D:\ \ .doc") //绝对路径 doc文件
doc.SaveAs("D:\ \ .docx",16) //保存的docx 文件,绝对路径
doc.Close()
word.Quit()
可以通过Spire.Doc for Java进行转换。
首先需要安装Spire.Doc for Java。可在 Java 程序中添加 Spire.Doc for Java 文件作为依赖项。JAR 文件可以从此链接下载。 如果您使用 Maven,则可以将以下代码添加到项目的 pom.xml 文件中,从而轻松地在应用程序中导入 JAR 文件。
<repositories>
<repository>
<id>com.e-iceblue</id>
<name>e-iceblue</name>
<url>https://repo.e-iceblue.cn/repository/maven-public/</url>
</repository></repositories><dependencies>
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.doc</artifactId>
<version>5.2.3</version>
</dependency></dependencies>
Java代码如下:
mport com.spire.doc.*public class WordtoHtml {
public static void main(String[] args) {
//实例化Document类的对象
Document doc = new Document()
//加载Word文档
doc.loadFromFile("inputfile.docx")
//保存为HTML格式
doc.saveToFile("ToHtml.html",FileFormat.Html)
doc.dispose()
}
}
希望对您有帮助。
doc.Close()word.Quit()
from docx2html import convert
import HTMLParser
html_parser = HTMLParser.HTMLParser()
html = convert('G:/T.docx') #使用docx2html模块将docx文件转成html串,随后你想干嘛都行
print html_parser.unescape(html) #这句非常关键,docx2html模块将中文进行了转义,所以要将生成的字符串重新转义回来!