puppeteer + nodejs 抓取网页内容

2023-04-11 14:06:01JavaScript038

puppeteer + nodejs 抓取网页内容,第1张

网址： http://nodejs.cn/download/

注：我使用的是二进制包 64位。解压后可直接使用

Puppeteer是什么

Puppeteer 是一个Node库，它提供高级API，通过DevTools Protocol 来控制Chrome 或 Chromium。 Puppeteer 默认运行为headless ，但是可以配置为运行为non-headless 。

可以做什么

生成页面截图或PDF

抓取SPA 并生成预渲染内容（SSR）

1、在windows环境下安装，在命令提示符中，输入命令：npm i --save puppeteer --ignore-scripts，即可安装成功。

执行命令：在cmd中执行 : nodejs路径 puppeteer路径 chrome浏览器路径 http://www.baidu.com

爬虫爬https站点处理，方法步骤如下：

1、百度蜘蛛爬虫Spider爬取HTTPS网站

1)、根据网页中的超链接是否是HTTPS，网络中会有一些超链，如果是HTTPS会认为是HTTPS站点。

2)、根据站长平台提交入口的提交方式，例如主动提交，如果在文件当中提交的是HTTPS链接会以HTTPS的形式来发现。

3)、参考前链的抓取相对路径，第一个网页是HTTPS的，网站内容里面的路径提供的是相对路径，会认为这种链接是HTTPS。

4)、参考链接的历史状况，使用这种方式的原因主要是为了纠错，如果错误提取HTTPS会遇到两种情况，一种因为HTTPS不可访问会抓取失败，第二即使能抓成功可能展现出来的可能不是站长希望的，所以会有一定的纠错。

2、HTTPS链接的抓取

现在比较常见的两种，第一种是纯HTTPS抓取，就是它没有HTTP的版本，第二个是通过HTTP重定向到HTTPS，这两种都能正常的进行抓取跟HTTP抓取的效果是一样的。

3、HTTPS的展现

对于HTTPS数据，展现端会有明显的提示

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：孕期如何避免电子辐射

# 下一篇：C语言用float 定义数组的问题

给您推荐相同类型的内容：

华为电视能通过蓝牙连电脑
华为电视能通过蓝牙连电脑，连接的方法：首先电脑和电视蓝牙需要打开，然后在电脑上投屏连接设置搜索电视蓝牙，进行配对连接即可。投屏有无线投屏投屏，软件投屏和硬件投屏之分。软件投屏的话需要额外安装软件和驱动，然后电脑连接无线投屏器的wifi进行投
网站设计参考文献
网站设计参考文献网站设计要能充分吸引访问者的注意力，让访问者产生视觉上的愉悦感。因此在网页创作的时候就必须将网站的整体设计与网页设计的相关原理紧密结合起来。下面是我整理的网站设计参考文献，欢迎阅读与收藏。网站设计参考文献
胜利极速12一代有日本版吗?
没有，JS-12是一款回馈清晰，出球干脆的球拍。击球瞬间，球拍传递给手指的力量反馈，清晰程度丝毫不亚于HX-800。如果说HX-800击球像是铁器互相撞击般清脆而余音不散，JS-12的击球感更像是薄玻璃被钢珠击碎般的干脆。JS-12在击球后
如何用c语言写cgi程序
包括标准输入、环境变量、标准输出三部分。 1.标准输入 CGI程序像其他可执行程序一样,可通过标准输入(stdin)从Web服务器得到输入信息,如Form中的数据,这就是所谓的向CGI程序传递数据的 POST方法。这意味着在操作系统命令行状
华为c8815恢复出厂设置变成了英文，怎么设置成中文
进入“设置”→语言和键盘→选择语言→English。进入“Settings”→Language&ampKeyboard→Select locale→选择"中文"。手机打不了字。原因基本为一下两种情况，第一：
js判断是否登录并跳转页面
1、首先在一个文件里面准备两个自己写的HTML文件以便进行跳转的效果查看。2、接着可以用location.href来指定要跳转的页面便可。3、然后在浏览器中点击按钮便可以看到跳转了。4、如图，此时便会从422a跳到422b了。5、最后可以直
苹果电脑怎么复制粘贴苹果电脑如何复制粘贴
苹果电脑怎么复制粘贴？1.苹果笔记本复制粘贴的快捷键是什么？如果是复制粘贴文字，Mac上直接是“Command + C”和“Command + V”；如果是想要复制粘贴文件和文件夹，MacBook复制粘贴快捷键则有些不同，具体分为以下几
怎么把桌面图标放大
若是使用的vivo手机，可以参考以下方法Origin桌面探索桌面：可点击桌面变形器，根据喜好设置图标风格与大小；长按图标，点击图标右下角，可定义图标在桌面位置的大小；其他系统桌面：可以进入设置--桌面、锁屏与壁纸---桌面设置--“图标
java购物车怎么写？
用Vector 或者是HashMap去装&lt下面有部分代码你去看吧&gtpackage com.aptech.restrant.DAOimport java.util.ArrayListimport java.util.H
电脑做账怎么做?
问题一：电脑怎么做账？现在用电脑做账的步骤跟手工记账大同小异，电脑记帐减轻工揣量能提高财务工作效率。财务软件如金碟用友都很不错，但用EXCEL会比较麻烦点问题二：怎么在电脑上做账目怎样操作呢看你是用什么来做，一般有两种：
【CSS动画】饿了么加入购物车抛物线动画实现
每次吃饭点外卖的时候（暴露了自己是个死肥宅，手动滑稽），或者在淘宝购物的时候，将商品加入购物车时会有一个很炫酷的动画，如下图饿了么点餐动画：所以百度了一下前端使用css实现这个效果，然后就自己就照葫芦画瓢的写了一个小小的demo，完
如何在前端用js进行多图片上传
产品提了一个需求，要求在一个html中实现多行多图片上传，原型图如下: 2.1 ：html html页面由前端实现，此处增加&ltul&gt&ltli&gt&l
我家电脑系统没有安装在C盘,怎么将系统改装到C盘
把系统安装到其他盘之后，只有通过重新安装系统才能把系统移到C盘。1、首先把“系统”以及“文件校验工具”下载到本地硬盘上，两个文件下载完打开文件目录，把“文件校验工具”解压。2、解压完毕之后，运行文件校验工具，并把下载好的系统拖入该软件。3
现在前端都这么多框架了，那学会原生的js还有用处吗？
当然有用，任何框架都是建立在基础之上的，但是任何框架都不可能百分百满足每个人的需求，框架只是为了更高效的开发，满足大部分的普通需求，而那些特别的个性化的需求还是需要开发人员自己来完成，这就需要开发人员掌握基础知识，否则拿什么来完成任务呢？最
javascript如何实现图片任意角度的旋转？
可以用JAvascript改变这个图片的css来旋转他：这个是css代码：img {transform:rotate(7deg)-ms-transform:rotate(7deg)* IE 9 *-moz-transform:rota
javascript的全局函数有哪些
全局函数与内置对象的属性或方法不是一个概念。全局函数它不属于任何一个内置对象。JavaScript 中包含以下 7 个全局函数，用于完成一些常用的功能：escape( )、eval( )、isFinite( )、isNaN( )、parse
上海java培训机构哪一家比较可靠？
上海java培训机构【达内教育】的最可靠，【达内教育】是引领行业的职业教育公司，致力于面向IT互联网行业培养人才，达内大型T专场招聘会每年定期举行，为学员搭建快捷高效的双选绿色通道。【达内教育】java培训班的优势：1、上市教育机构，专注I
求JS,表单勾选多选项统计并显示数字
$("input[type='checkbox']").click(function(){ form1.clickall.value=$(":checkbox:checked").
javascript怎么用正则替换标签里的内容
如果是在长字串里替换可以用:长字串.replace((&lttds+nowrap="nowrap"s+id='regx'&gt)d+(&lttd&gt)g
vue项目打包成apk
1.vue项目打包---npm run build 2.在HBuilder中新建5+app项目 3.把5+app项目中删除js css等文件只剩manifest.json 文件 4.复制vue项目打包后的dist目录中所有文件
vue.js怎样解决按钮多次点击重复提交
建议使用ref，给button添加注册ref引用，然后在表单提交的时候，获取button按钮，使其disable置灰。ref 被用来给元素或子组件注册引用信息。引用信息将会注册在父组件的 $refs对象上。如果在普通的 DOM 元素上使用
R爬虫必备基础—HTTP协议
HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。HTTP是一个基于TCPIP通信协议来传递数
less的使用
1.安装： 1.npm i less --save-dev 把less源码安装到开发环境 2.npm i less-loader@6 --save-dev 安装less解析器（★一定要指定版本） 3.lessc -v 查看版本
明日之后有没有手机上弹钢琴的脚本
明日之后是一款病毒末世下的人类生存手游，钢琴在哪里，明日之后游戏玩法中相信不少小伙伴都知道本次更新后新上线了许多道具，其中钢琴许多玩家都在寻找，那么具体的位置在哪里呢，该怎么弹钢琴，快来和小编往下接着看钢琴的具体位置和玩法，感兴趣的朋友千万
怎么把手机上的文件传到电脑上
如果您使用的是华为手机，以华为Mate 40手机为例：1、通过 USB 数据线连接手机和电脑。待电脑上的驱动程序自动安装完成后，点击此电脑（计算机），会出现以手机命名的盘符。2、从（手机）状态栏下滑出通知面板（可继续下滑），点击点击查看更多
电脑灰尘怎么清理
需要到电脑旗舰店交给售后清理，自己清理会有一定的麻烦1、打开主机箱：首先拔掉所有的主机箱电线。这里不需要螺丝刀，一般的主机箱直接使用手就可以将螺丝旋开，这里是四颗大螺丝，使用手向左旋开(左松右紧)，然后用手将一边的主机盖取下来。(只需要去侧
电脑怎么进入系统设置
问题一：电脑怎么进入系统模式设置怎么进入系统高级启动选项如下：一、开机时按F8键重启电脑，在未进入系统之前一直按F8即可进入系统模式二、启动计算机时按住CTRL键如上图，出现系统高级启动选项，选择什么模式就进入什
JavaScript 入门哪本书最好
首先，学习Javascript应当要有HTML和CSS的基础。其次才是学JS。如果是一点JS基础都没有的初学者，入门书籍应当是《Javascript DOM 编程艺术》。如果是有一些JS基础的，可以看看《Javascript 高级程序设
计算机编号怎么查
具体方法步骤如下：第一步：同时按住键盘上的"Win+R"，打开开始菜单下的运行框，如下图所示：第二步：在运行框里输入“dxdiag”操作指令。如下图所示：第三步：跳出“dxdiag”诊断工具框，选择上面菜单第一项“系统
怎么禁止电脑自动安装软件
怎么禁止电脑自动安装软件如下：1、找到桌面上的“此电脑”，然后鼠标右击，然后选择“管理”；2、接着在弹出的“计算机管理”窗口中，点击“服务和应用程序”，下方就会出现“服务”；3、点击进入“服务”功能页面，就可以看到很多的计算机应用程序，我们

推荐阅读

热门文章

最新发布

标签列表

puppeteer + nodejs 抓取网页内容

给您推荐相同类型的内容：