python给pdf添加文本框

Python013

python给pdf添加文本框,第1张

1、使用阅读PDF,创建一个包含要使用ReportLab添加的文本的新pdf文件。

2、将其另存为字符串对象使用读取字符串对象。

3、使用创建一个新的PDF对象PdfFileWriter,将其称为输出遍历,输入内容并申请。

4、要添加文本的每个页面,用于修改后的页面添加到新文档中。Python由荷兰数学和计算机科学研究学会的吉多范罗苏姆于1990年代初设计,作为一门叫做ABC语言的替代品。

使用第三方库

官方文档:pymupdf.readthedocs.io/en/latest/

提取图片的整体逻辑如下:

将每一页转换为一张张图片

安装pdf2image, github:github.com/Belval/pdf2…

安装:

使用库: github.com/2Dou/waterm…

步骤:

1.获得一个带水印pdf文件

1.1在图片添加水印,图片插入到word,word保存为pdf

1.2python处理:参考

github.com/2Dou/waterm…

mp.weixin.qq.com/s/_oJA6lbsd…

2.将水印pdf文件合并到源目标pdf文件的每一页

法1,直接在word,插入文本框,旋转,设置无边框,注意设置背景透明,然后复制多个。导出为pdf。

法2,word本身自己的增加水印,设计-水印-自定义文字或图片。缺点是只能是单个水印。

缺点是水印在内容pdf上方,如果设置过大,颜色不太透明,会遮挡内容。

解密:并不是破解,而是在已知密码的情况下解密

作者:秦与商

链接:https://juejin.cn/post/7069582991982329893

一、原理

1、将PDF文档每页转换为图像

2、调用 百度通用文本识别 页面接口,对图像进行内容识别

3、对图像内容进行对比,并将对比不一致的内容在文档图像上进行标记(红框)

4、将对比结果表格输出为html,以便进行识别

二、范围和限制

1、目前仅支持PDF文档之间的对比

2、无法识别图形(盖章和logo)、不清晰字迹

3、需要联网使用(OCR使用的是百度通用文本识别接口,仅限测试使用,暂不限次数)

4、对比存在误差(原因为百度OCR识别无法达到100%准确)

三、安装库

pip install pymupdf

pip install requests

四、参数

originPDF: PDF文档原件路径

contrastPDF: PDF文档扫描件路径

resultRoot: 输出结果路径(提示:程序运行后会清空该目录,请不要直接设置桌面)

输出 : 标注差异的文档图像、Html文档

五、源码

六、执行结果示例: