nodejs读取pdf并翻转内容保存pdf

JavaScript010

nodejs读取pdf并翻转内容保存pdf,第1张

nodejs读取pdf并翻转内容保存pdf需以下几个步骤。

1、启动windows命令行工具(windows下启动系统搜索功能,输入cmd回车就出来了)。

2、查看环境变量是否已经自动配置,在命令行工具中输入node-v,如果出现v10字段,则说明成功安装Node.js。

3、在第三步发现输入node-v还是没有出现对应的字段,那么重启电脑即可。

4、打开本项目文件夹,打开命令行工具(windows系统中直接在文件的url地址栏输入cmd就可以打开了),输入npmicnpmnodemon-g。

5、下载puppeteer爬虫包,在完成第五步后,使用cnpmipuppeteer--save命令下载。

6、完成第六步下载后,打开本项目的url.js,将您需要爬虫爬取的网页地址替换上去。

7、在命令行中输入nodemonindex.js即可爬取对应的内容,并且自动输出到当前文件夹下面的index.pdf文件中。

一、遇到的问题 :预览pdf文件时,很多内容未显示。****

查看控制台,出现以下警告

二、跟踪源码,排查原因

从下图可以发现baseUrl取值为params.cMapUrl

找到调用WorkerTransport方法处:

该问题的原因是因为缺少了部分字体包,也可使用CDN方式加载字体包。

此处提供cmaps的2个CDN地址(2.2.228为pdfjs-dist的版本号):

https://unpkg.com/browse/[email protected]/cmaps/

https://cdn.jsdelivr.net/npm/[email protected]/cmaps/

加载字体包后,效果如下图(部分内容已打马赛克):

PDF.js 是基于开放的 HTML5 及 JavaScript 技术实现的开源产品。简单说就是一个 PDF 解析器。运用HTML5JavaScript(即pdf.js仅使用安全的web语言,不包含任何攻击者可以用的本地代码块)的PDF阅读器pdf.js,直接在标准的HTML页面上载入和渲染PDF...