puppeteer + nodejs 抓取网页内容

JavaScript026

puppeteer + nodejs 抓取网页内容,第1张

  网址: http://nodejs.cn/download/

  注:我使用的是二进制包 64位。解压后可直接使用

   Puppeteer是什么

  Puppeteer 是一个Node库, 它提供高级API,通过DevTools Protocol 来控制Chrome 或 Chromium。 Puppeteer 默认运行为headless ,但是可以配置为运行为non-headless 。

   可以做什么

  生成页面截图或PDF

  抓取SPA 并生成预渲染内容(SSR)

   1、在windows环境下安装,在命令提示符中,输入命令:npm i --save puppeteer --ignore-scripts,即可安装成功。

执行命令:在cmd中执行 : nodejs路径 puppeteer路径 chrome浏览器路径 http://www.baidu.com

爬虫爬https站点处理,方法步骤如下:

1、百度蜘蛛爬虫Spider爬取HTTPS网站

1)、根据网页中的超链接是否是HTTPS,网络中会有一些超链,如果是HTTPS会认为是HTTPS站点。

2)、根据站长平台提交入口的提交方式,例如主动提交,如果在文件当中提交的是HTTPS链接会以HTTPS的形式来发现。

3)、参考前链的抓取相对路径,第一个网页是HTTPS的,网站内容里面的路径提供的是相对路径,会认为这种链接是HTTPS。

4)、参考链接的历史状况,使用这种方式的原因主要是为了纠错,如果错误提取HTTPS会遇到两种情况,一种因为HTTPS不可访问会抓取失败,第二即使能抓成功可能展现出来的可能不是站长希望的,所以会有一定的纠错。

2、HTTPS链接的抓取

现在比较常见的两种,第一种是纯HTTPS抓取,就是它没有HTTP的版本,第二个是通过HTTP重定向到HTTPS,这两种都能正常的进行抓取跟HTTP抓取的效果是一样的。

3、HTTPS的展现

对于HTTPS数据,展现端会有明显的提示