简单NodeJS爬虫和使用cookie进行模拟登录

2023-04-24 07:13:02JavaScript042

简单NodeJS爬虫和使用cookie进行模拟登录,第1张

NodeJS做爬虫也是很方便的。因为nodejs有HTTP模块直接可以使用，而且还有很多简单粗暴的库可以即拿即用。首先，需要的库文件， 1、superagent 是个轻量的的 http 方面的库，就像jquery的post，和get一样，很简单。 2、cheerio 是一个服务端操作DOM的库，简直就是服务端的jquery。好的，我们需要抓取某个网站的题目。如下图。这个系统下，及时是游客状态也是可以查看题目的，只是答案我们看不到。会显示我没有登录。现在我们有个需求，先抓取15页，根据URL的参数可以页数就是地址中的P。并且要有本地cookie，获取cookie的方法，最简单的是，利用浏览器登录网站之后，在控制台直接打印document.cookie，得到之后，复制进txt文本。用fs模块读取并转换成字符串。在superagent请求时，把cookie传进去。好了，控制台已经不输出“未登录”，说明已经登录成功了。

我们需要使用爬虫程序对目标网站登录时的请求进行一次抓取，获取请求中的cookie数据；

在使用个人信息页的url进行请求时，该请求需要携带cookie，只有携带了cookie后，服务器才可识别这次请求的用户信息，方可响应回指定的用户信息页数据。

爬虫除了要注意Cookie的限制之外，还需要注意其他的反爬虫，比如IP限制，这就需要使用极光代理IP进行更换IP地址，以其他的IP地址继续访问，突破网络限制。当然，还有其它很多的限制，爬虫在进行采集之前需要好好分析网站的反爬虫策略。

纯粹前端的js 是不能跨域获取 cookie的

xxx.com 的js 代码只能得到 xxx.com的cookie，拿不到 yyy.com

当然如果你有办法在 yyy.com 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyy.com 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyy.com 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：js 数组arrar改为数组object对象

# 下一篇：怎么看电脑电池损耗

给您推荐相同类型的内容：

怎么看电脑电池损耗
问题一：笔记本电池损耗怎么查 Win10查看笔记本电池损耗方法1、右击开始或者按windows键+X键，单击命令提示符(管理员)2、这样打开了命令提示符窗口，输入命令：cd %userprofile%Documents 并回车3、这样
大学摄影专业选什么笔记本电脑好
考虑到，摄影专业，对图象的处理要求屏要非常好的色彩表现力，首选72%色域的IPS屏，然后由于可能经常要外出，所以一定要选高续航的轻薄本。推荐两款：小米Pro 15.6英寸i5-8250U 8G 256GSSD MX150 2G独显5
我是js菜鸟，想请教：javascript中字符串覆盖问题在线等待
给你举个例子吧首先你要明白一点，这段程序是从上至下开始执行的，如果直接用"="给变量赋值的话，就是将一个值覆盖变量原来的值，如下var a=1声明变量并赋值为1,此时a代表1 a=2重新赋值为2,此时a代表
css和js的加载执行是否会阻塞Dom
1.都没有配置：立即执行，阻塞DOM的解析 2.&ltsrcript async &gt: Dom加载和渲染后续文档与js的加载和执行异步关系 3.&ltsrcript defer &gt: Do
笔记本电脑连接无线网络后如何共享网络给手机
笔记本电脑连接无线网络后共享网络给手机的操作方法如下：1、首先打开笔记本电脑，打开我的电脑，找到控制面板，在控制面板中有许多的功能，对网络进行建立热点，所以选择【网络和intetnet】进入。2、打开网络和internet后，在网络和共享
.js在iPhone用什么打开
alook浏览器。.js是一种脚本语言，通常在浏览器中执行，iPhone手机alook浏览器支持.js，脚本语言，是一种动态类型、弱类型、基于原型的语言，最早是在HTML网页上使用，用来给HTML网页增加动态功能。可以直接使用safari的
js 提交页面数据时，用ajax验证，但ajax没验证完成，页面js数据已经提交，这个怎么弄？
使用 jquery 来完成 ajax 操作，引用 jquery.min.js 其中，把提交事件写到 success:function 中就可以了如果需要放在 $.ajax() 外面，则需要定义全局变量，另外，需要设置 asy
电脑键盘上的省略号怎么打？
方法一：1、将电脑中安装的输入法切换为英文输入模式。2、点击键盘上的“ . ”，连按六个“ . ”即可连成省略号。方法二：1、右键点击输入法，在弹出的选项中选择“软键盘”。2、点击“标点符号”软键盘，调出软键盘后，数字7对应的即为省略号
电脑直播平台有哪些
电脑直播平台有欢拓云直播、龙珠直播、花样直播等。推荐欢拓云直播，该平台匠心打造稳定高能的企业直播，支持高端定制线上直播间样式，还能根据业务深度定制功能。点击领取7天免费试用资格欢拓云直播可以为全行业多场景提供解决方案，是一款最高支持百万人同
json反序列化时如何创建对象
当json在反序列化时，默认选择类的无参构造函数创建类对象，当没有无参构造函数时会报错，@JsonCreator作用就是指定反序列化时用的参构造函数。构造方法的参数前面需要加上@JsonProperty,否则会报错。Json是一种轻量级的数
R语言reshape2包处理数据2021.3.6
merge函数通过by选择合并某列的相同值。这个包处理数据与excel包中的透视表有些类似 reshape包包含融合（melt)和重铸(cast），melt函数是将宽数据变为长数据，而cast则是将长数据变为宽数据。 melt
python制作分布图
制作分布图类似密度图，在python中利用pandas来提取分布数据是比较方便的。主要用到pandas的cut和groupby等函数。官方文档链接主要参数为x和bins。 x为数据源，数组格式的都支持，list，nump
利用电脑赚钱的副业
利用电脑赚钱的副业利用电脑赚钱的副业，人们的生活压力是越来愈大，很多朋友的工资还完贷款后就没有剩余的，最近很多朋友都说想做副业，但是不知道做什么，下面我就来分享一下利用电脑赚钱的副业，快来看看吧利用电脑赚钱的副业1 做微商
微信公众号怎么美化
问题一：怎样编辑出特别好看微信公众平台图文推送没有图片说明，我猜你是想问公众号美化的问题。很多排版漂亮的公众号，都是用css+html特效来完成的，如果想自己设计，需要有一些代码基础。直接抄来用也是可以的，原创的很少。问题二
如何更改电脑开机LOGO画面?
1、以Win7 系统为例，可以通过下面的方法进行更改。首先需要搜索下载.bs7格式文件和Win7 Boot Updater，然后将这两个软件安装到电脑上。2、Win7 Boot Updater安装完成后，需要将软件打开。3、目前，该软件还没
电脑怎样连接打印机进行打印
电脑连接打印机的方法如下：1、打开电脑，先点击左下角的开始。2、然后再点击“设置”选项。3、下拉点击“设备和打印机”。4、右击打印机并选择设置为默认打印机即可链接。打印的方法如下：1、连接好打印机后，点击电脑桌面左下角的开始图标。2、在弹出
电脑不能正常开机怎么办？
1、启动过程中，选择“最后一次正确的配置启动”。若不能解决继续下一步2、启动过程中，注意按“F8”键进入安全模式，在此模式下通过导入备份过的注册表、杀毒、查看硬件设备管理器来卸载重新安装带“!”的设备驱动。3、值得一提的是，键盘故障或没
用css选择器如何选择自己的父元素
1.双击打开HBuilderX工具，创建一个新的HTML5静态页面，如下图zd所示:2.在body标签元素中插入多个div标签，并用div将它们嵌套在div中，如下图所示:3.在标题标签下面添加一个样式，设置全局版本的样式，并使用*符号，如
在电脑上怎么剪辑视频
学剪辑视频的方法如下：工具／原料：华硕飞行堡垒8、Win10、Pr 2018。1、首先大家需要先下载一款视频剪辑软件，这里以pr为例。2、打开pr软件之后，先新建一个项目，点击确定。3、然后将需要剪辑的视频拖入到界面下方的轨道内。4、将
css3动画连续执行两个怎么做
animation定义和用法animation 属性是一个简写属性，用于设置六个动画属性：animation-nameanimation-durationanimation-timing-functionanimation-delayani
苹果手机在电脑上升级系统怎么做
苹果手机在电脑上升级系统的步骤如下：1.首先将手机和数据线连接好，打开电脑上面的iTunes，进入iTunes首页，点击如图所示手机形状的按钮，进入手机管理。2.进入手机管理之后，可以看到手机的基本信息，系统版本等，点击“更新”按钮。3.然
办公电脑用什么配置的好？办公电脑配置推荐
办公电脑用什么配置的好？办公电脑配置推荐1、1000元配置这套主机主要针对普通办公使用者，就办公来说，由于工作的需求不同对主机配置的要求也分为好几个等级。普通文职办公的工作内容主要是依赖于office、WPS这样的办公软体
32位浏览器加载不了js
32位浏览器可能无法加载js，因为js是一种64位的脚本语言，而32位浏览器只能处理32位的脚本语言。另外，32位浏览器可能无法加载js，因为js可能使用了64位的API，而32位浏览器只能处理32位的API。1、检查插件兼容性。全部卸载不
电脑看网站，谁知道介绍几个
这个有很多的，向你推荐几个我经常逛的：远景在线：www.pcbeta.com，每天都有新的消息发布，还有里面的论坛很棒，几乎可以包括所有的电脑基本知识。异次元软件世界：www.iplaysoft.com，这个网站会介绍一些软件知识，都是些比
javascript中怎么实现按钮只能点击一次？
在点击时间处理程序的开始位置，将此按钮设为禁用，同时移除此处理程序与按钮的关联即可。示例：$('#mybtn').click(function(){ $(this).attr('disabled�
在css中怎样让边角具有弧度
利用css3的border-radius属性，如：&ltdiv style="width:200px height:100px border:1px solid red border-radius:5px"&a
在电脑上怎么编写文件
如果是编写程序文件的话，需要下载对应的程序编写软件，如VC6.0等，如果是编写文档，数据表格类的需要下载办公软件，一般电脑都会提前安装有办公软件的，以WPS为例说明：1、没有软件的话，先安装软件，如下图所示；2、在桌面空白位置单击鼠标右键
用HTML+CSS+JS如何动态绘制网络拓扑图?
1.各个应用系统、服务器信息及系统直接的调用都录入到数据库中2.前端拓扑图、或系统调用关系图的展示UI可以通过一些选项从数据库中捞出数据，然后在UI上动态绘制出关系图来3.如HTML5 Canvas或基于HTML5 Canvas的JTopo
腾讯参加CSS会提出什么新理念呢？
是的腾讯将会在CSS中国互联网安全领袖峰会上提出安全3.0的观念，意思就是说需要安全软件厂商等多部门建立一个统一的、联合的产业链来抵制日益高端化的高科技网络犯罪。比如腾讯之前也和警方运营商等多部门联合成立过天下无贼反信息诈骗联盟月这的的活动
联想g50笔记本电脑配置如何？
联想G50笔记本参数：CPU型号：Intel 酷睿i5 4258U；CPU主频：2.4GHz；最高睿频：2.9GHz；核心线程数：双核心四线程；三级缓存：3MB；总线规格：DMI 5 GTs；核心代号：Haswell；

推荐阅读

热门文章

最新发布

标签列表

简单NodeJS爬虫和使用cookie进行模拟登录

给您推荐相同类型的内容：