利用python将docx文件转为txt

2023-03-09 21:12:01Python015

利用python将docx文件转为txt,第1张

背景：工作中需要将文件夹下的若干word文�».docxè½¬æ¢ä¸ºå¯¹åºtxtææ¬æ ¼å¼ å æ¤éè¦å°docxä¸ææ¬è¯»ååºæ¥ï¼ç¶åä¿åä¸ºtxtæ ¼å¼å³å¯ éè¦çpythonæ¨¡åä¸º python-docx ï¼ https://python-docx.readthedocs.io/en/latest/index.html, å¯¼å¥æ¨¡åæ¶åå¯¼å¥docxï¼åªè½è¯»å.docxæä»¶ï¼ä¸è½è¯»å.docæä»¶ï¼æ³¨æï¼å¨PyPiéè¿æä¸ä¸ªå«docxçåºï¼å·²ç»åæ¢æ´æ°ï¼ä¸å»ºè®®ä½¿ç¨ï¼ http://www.cnblogs.com/geek-arking/p/9300617.html ä¸é¢çæ¹æ³åªè½è¯»ådocxæä»¶ï¼å¦æè¯»ådocä¼æ¥é ç»ææ¥éï¼docx.opc.exceptions.PackageNotFoundError: Package not foundãè¿æ¯æ æ³è¯å«doc âæ¹åæå±åå¹¶æ²¡ææ¹åå¶ç¼ç æ¹å¼ï¼å æ¤æ æ³è¯»åææ¬åå®¹ï¼éå°docæä»¶ç¨wordå¦åä¸ºdocxååç¨python-docxè¯»åå¶åå®¹â å¯¹äºè¦è½¬æ¢çdocæä»¶ï¼ç½ä¸çèµæé½æ¯ä½¿ç¨win32ï¼éè¦å®è£ pypiwin32 https://www.cnblogs.com/AlgorithmDot/p/3386918.htmléè¿ä¸é¢çæ¹æ³ï¼ææ¶å¯ä»¥ç´æ¥å°docè½¬æ¢ä¸ºtxtæä»¶ï¼ææ¶åä¼æ¥éã è¿éæä»¬å¯ä»¥èèå°docæä»¶ç´æ¥è½¬æ¢ä¸ºdocxç¶ååéè¿ä¸é¢çæ¹æ³è¯»åä¸ºtxtï¼å¦ææå¨å°docä¿®æ¹ä¸ºtxtæèdocxï¼æå¼æä»¶ä¼æ¾ç¤ºä¹±ç ï¼ä½æ¯å¯ä»¥ç¨å¶æä¾çSaveAsæ¹æ³å°.docææ¡£å©ç¨æå¨çæ¹å¼âå¦åä¸ºâ.docxææ¡£ï¼å°±è½å¤æåæå¼è½¬ååç.docxææ¡£ï¼ doc.SaveAs(tmp +'.docx', 16) å¶ä¸16çå«ä¹å¦ä¸ï¼ å©ç¨win32comæ¥å£ç´æ¥è°ç¨office APIï¼å¥½å¤æ¯ç®åãå¼å®¹æ§å¥½ï¼åªè¦officeè½å¤ççï¼pythoné½å¯ä»¥å¤çï¼å¤çåºæ¥çç»æåoffice wordéé¢âå¦åä¸ºâä¸è´ã ä¸é¢æ¯office 2007æ¯æçå¨é¨æä»¶æ ¼å¼å¯¹åºè¡¨ï¼ wdFormatDocument = 0 wdFormatDocument97 = 0 wdFormatDocumentDefault = 16 wdFormatDOSText = 4 wdFormatDOSTextLineBreaks = 5 wdFormatEncodedText = 7 wdFormatFilteredHTML = 10 wdFormatFlatXML = 19 wdFormatFlatXMLMacroEnabled = 20 wdFormatFlatXMLTemplate = 21 wdFormatFlatXMLTemplateMacroEnabled = 22 wdFormatHTML = 8 wdFormatPDF = 17 wdFormatRTF = 6 wdFormatTemplate = 1 wdFormatTemplate97 = 1 wdFormatText = 2 wdFormatTextLineBreaks = 3 wdFormatUnicodeText = 7 wdFormatWebArchive = 9 wdFormatXML = 11 wdFormatXMLDocument = 12 wdFormatXMLDocumentMacroEnabled = 13 wdFormatXMLTemplate = 14 wdFormatXMLTemplateMacroEnabled = 15 wdFormatXPS = 18 ç§çåé¢ææåºè¯¥è½å¯¹åºå°ç¸åºçæä»¶æ ¼å¼ã 1ãæ°å»ºææå¼æä»¶ãè¿ä¸ªæ¯è¾ç®åç¨docxçDocumentç±»ï¼è¥æå®è·¯å¾åæ¯æå¼ææ¡£ï¼è¥æ²¡ææå®è·¯å¾åæ¯æ°å»ºææ¡£ 2ãä¿åæä»¶ãææå¼ï¼å°±æä¿åãç¨Documentç±»çsaveæ¹æ³ï¼å¶ä¸åæ°æ¯ä¿åçæä»¶è·¯å¾ï¼æèè¦ä¿åçæä»¶æµãä¸è¬æå®è·¯å¾å³å¯ã doc.save(path_or_stream) 3ãå¯¹è±¡éåãpython-docxåå«äºwordææ¡£çç¸å³å¯¹è±¡éåã 4ãæå¥æ®µè½ãæ®µè½æ¯wordæåºæ¬çå¯¹è±¡ä¹ä¸ã 5ãæ°å¢æ ·å¼ãè¿ä¸ªå¸®å©ææ¡£éé¢è¯´å¾ä¸ä»ç»ï¼èä¸è¿æ¯è±æçãææå¤´ä¸çé¡¹ç®ç¨å°è¿ä¸ªï¼å°±èªå·±ç¢ç£¨åºæä¹ä½¿ç¨ï¼å¦ä¸ã 6ãåºç¨åç¬¦æ ·å¼ãåç¬¦èªç¶æ¯å¨æ®µè½éé¢çï¼å¯ä»¥éç¨ä¸é¢æ¹æ³ç»æ®µè½è¿½å æååè®¾ç½®åç¬¦æ ·å¼ã #æå¥ä¸ä¸ªç©ºç½æ®µè½ p = doc.add_paragraph('') p.add_run('123', style="Heading 1 Char") p.add_run('456') p.add_run('789', style="Heading 2 Char") #è¿æ ·ä¸ä¸ªæ®µè½å°±åºç¨äºä¸¤ä¸ªåç¬¦æ ·å¼ï¼ä¸é´â456âå°±æ²¡åºç¨æ ·å¼ printp.text#è¾åºç»ææ¯u'123456789' ä¹è¿æ¯è¿ç»ç 7ãè®¾ç½®åä½ãå½ç¶å¯ä»¥ä¸ç¨éè¿è®¾ç½®æ ·å¼å¯¹æäºåè¿è¡è®¾ç½®ï¼ä¹å¯ä»¥ç´æ¥è®¾ç½®ã p = doc.add_paragraph('') r = p.add_run('123') r.font.bold =True#å ç² r.font.italic =True#å¾æ çç... 8ãè¡¨æ ¼æä½ãè¡¨æ ¼ä¹æ¯ç»å¸¸ç¨å°çä¸ç§å¯¹è±¡ç±»åã

pdf格式的文件必须用相应的pdf阅读器才能打开，而且一般的pdf阅读器打开pdf文件后并不支持编辑修改PDF文档的文字。如果可以把把pdf转化为txt文本文件，那么我们阅读编辑起来就容易的多。现在市场上已经有很多PDF转换程序，但是基本上需要付费。但是你只要学会了用Python来进行pdf文件转换为txt文件操作，仅仅只需要短短几行代码就可以搞定

# -*- coding:utf-8 -*-

from win32com import client as wc

import os

key = '文档密码'

def Translate(input, output):

# 转换

wordapp = wc.Dispatch('Word.Application')

try:

doc = wordapp.Documents.Open(input, False, False, False,key)

doc.SaveAs(FileName=output, FileFormat=4, Encoding="gb2312")

doc.Close()

print(input, "完成")