如何将doc转换成html

html-css010

如何将doc转换成html,第1张

doc.Close()

word.Quit()

from docx2html import convert

import HTMLParser

html_parser = HTMLParser.HTMLParser()

html = convert('G:/T.docx') #使用docx2html模块将docx文件转成html串,随后你想干嘛都行

print html_parser.unescape(html) #这句非常关键,docx2html模块将中文进行了转义,所以要将生成的字符串重新转义回来!

经常有一些将doc文件转换成HTML的需求,比如说明、协议之类的。虽然有 https://word2cleanhtml.com/ 这种神器,像下图这样可以直接将doc内容粘贴到剪贴板上,即可得到对应的html。但是,复制粘贴也是个体力活,如果一天突然要做10个这样的文档,可能真的要抓狂了。基于此目的,一起来做个脚本一键傻瓜式生成HTML吧。 首先,我们脚本的主角是 mammoth ,这个东西可以读取doc文档,并把内容给转换出来。 准备工作就是安装示例文档里的两个依赖 文档里给的转换html的示例是这样的。 可以试一试,会发现做出来的html效果会生成strong、p、tr、td这种标签,套上head、body、css之后页面就非常完整了,可是一些特殊的效果,比如说下划线u就没有。 怎么让他们出现呢?可以直接在文档里搜下划线的英文Underline,找到这条说明 原来在转换的过程中,下划线被忽略了,文档里也给了解决方法。可以显式地设置下划线转换成的标签去让下划线生效,像这样。 然后,我发现,生成的页面没有带class样式。其实在doc文档里面,有些行是居中效果的,如何做到居中效果在页面里也生效呢? 我们在template里写一个.center样式,然后options里试一试这个功能。 以下是完整的生成脚本。 这样一来,就算一天十个文档也是分分钟的事情了。