简单NodeJS爬虫和使用cookie进行模拟登录

2023-04-24 07:13:02JavaScript018

简单NodeJS爬虫和使用cookie进行模拟登录,第1张

NodeJS做爬虫也是很方便的。因为nodejs有HTTP模块直接可以使用，而且还有很多简单粗暴的库可以即拿即用。首先，需要的库文件， 1、superagent 是个轻量的的 http 方面的库，就像jquery的post，和get一样，很简单。 2、cheerio 是一个服务端操作DOM的库，简直就是服务端的jquery。好的，我们需要抓取某个网站的题目。如下图。这个系统下，及时是游客状态也是可以查看题目的，只是答案我们看不到。会显示我没有登录。现在我们有个需求，先抓取15页，根据URL的参数可以页数就是地址中的P。并且要有本地cookie，获取cookie的方法，最简单的是，利用浏览器登录网站之后，在控制台直接打印document.cookie，得到之后，复制进txt文本。用fs模块读取并转换成字符串。在superagent请求时，把cookie传进去。好了，控制台已经不输出“未登录”，说明已经登录成功了。

我们需要使用爬虫程序对目标网站登录时的请求进行一次抓取，获取请求中的cookie数据；

在使用个人信息页的url进行请求时，该请求需要携带cookie，只有携带了cookie后，服务器才可识别这次请求的用户信息，方可响应回指定的用户信息页数据。

爬虫除了要注意Cookie的限制之外，还需要注意其他的反爬虫，比如IP限制，这就需要使用极光代理IP进行更换IP地址，以其他的IP地址继续访问，突破网络限制。当然，还有其它很多的限制，爬虫在进行采集之前需要好好分析网站的反爬虫策略。

纯粹前端的js 是不能跨域获取 cookie的

xxx.com 的js 代码只能得到 xxx.com的cookie，拿不到 yyy.com

当然如果你有办法在 yyy.com 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyy.com 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyy.com 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：js 数组arrar改为数组object对象

# 下一篇：怎么看电脑电池损耗

给您推荐相同类型的内容：

大学摄影专业选什么笔记本电脑好
考虑到，摄影专业，对图象的处理要求屏要非常好的色彩表现力，首选72%色域的IPS屏，然后由于可能经常要外出，所以一定要选高续航的轻薄本。推荐两款：小米Pro 15.6英寸i5-8250U 8G 256GSSD MX150 2G独显5
投行工作配电脑吗
投行工作是否配电脑需要看公司的实际情况进行决定，无固定要求。投行指的是投资银行投行是与商业银行相对应的一类金融机构，主要从事证券发行、承销、交易、企业重组、兼并与收购、投资分析、风险投资、项目融资等业务的非银行金融机构，是资本市场上的主
在电脑上怎么编写文件
如果是编写程序文件的话，需要下载对应的程序编写软件，如VC6.0等，如果是编写文档，数据表格类的需要下载办公软件，一般电脑都会提前安装有办公软件的，以WPS为例说明：1、没有软件的话，先安装软件，如下图所示；2、在桌面空白位置单击鼠标右键
电脑键盘上的省略号怎么打？
方法一：1、将电脑中安装的输入法切换为英文输入模式。2、点击键盘上的“ . ”，连按六个“ . ”即可连成省略号。方法二：1、右键点击输入法，在弹出的选项中选择“软键盘”。2、点击“标点符号”软键盘，调出软键盘后，数字7对应的即为省略号
电脑怎样连接打印机进行打印
电脑连接打印机的方法如下：1、打开电脑，先点击左下角的开始。2、然后再点击“设置”选项。3、下拉点击“设备和打印机”。4、右击打印机并选择设置为默认打印机即可链接。打印的方法如下：1、连接好打印机后，点击电脑桌面左下角的开始图标。2、在弹出
怎么看电脑电池损耗
问题一：笔记本电池损耗怎么查 Win10查看笔记本电池损耗方法1、右击开始或者按windows键+X键，单击命令提示符(管理员)2、这样打开了命令提示符窗口，输入命令：cd %userprofile%Documents 并回车3、这样
电脑直播平台有哪些
电脑直播平台有欢拓云直播、龙珠直播、花样直播等。推荐欢拓云直播，该平台匠心打造稳定高能的企业直播，支持高端定制线上直播间样式，还能根据业务深度定制功能。点击领取7天免费试用资格欢拓云直播可以为全行业多场景提供解决方案，是一款最高支持百万人同
.js在iPhone用什么打开
alook浏览器。.js是一种脚本语言，通常在浏览器中执行，iPhone手机alook浏览器支持.js，脚本语言，是一种动态类型、弱类型、基于原型的语言，最早是在HTML网页上使用，用来给HTML网页增加动态功能。可以直接使用safari的
win10里面的软件有哪些可以删除
只要不是你需要的，基本上都可以删除，解决方法如下：1、首先打开电脑在“开始”里面找到“控制面板”。2、然后打开控制面板，找到“程序和功能”，点击打开。3、找到自己想要删除的软件，然后选中，点击上方的卸载更改。4、这里随便选一个软件，点击
js中n换行,怎么算这个字符串在n哪里
首先，关于n,r,rn的区别请看这里关于r与n 以及 rn 的区别总结_long for us-CSDN博客1.字符串中有“↵”符号像这样的 var str="英雄联协议↵ ↵ 在您向英雄联APP...&q
css怎么实现简单3d动画效果
主要是用CSS3里的animation和translate3d来做的。给你找了个例子，方便理解：http:www.cnblogs.comaxesp3520299.html你也可以上ITJOB的官网看看你是要在不同的时间内执行两
各城市的区号
直辖市地区长途区号地区长途区号北京市 010 上海市 021 天津市 022 重庆市 023 河北省地区长途区号地区长途区号石家庄市 0311 南宫市 0319 辛集市 0311 衡水市 0318 邢台市
笔记本电脑连接无线网络后如何共享网络给手机
笔记本电脑连接无线网络后共享网络给手机的操作方法如下：1、首先打开笔记本电脑，打开我的电脑，找到控制面板，在控制面板中有许多的功能，对网络进行建立热点，所以选择【网络和intetnet】进入。2、打开网络和internet后，在网络和共享
电脑不能正常开机怎么办？
1、启动过程中，选择“最后一次正确的配置启动”。若不能解决继续下一步2、启动过程中，注意按“F8”键进入安全模式，在此模式下通过导入备份过的注册表、杀毒、查看硬件设备管理器来卸载重新安装带“!”的设备驱动。3、值得一提的是，键盘故障或没
在css中怎样让边角具有弧度
利用css3的border-radius属性，如：&ltdiv style="width:200px height:100px border:1px solid red border-radius:5px"&a
用HTML+CSS+JS如何动态绘制网络拓扑图?
1.各个应用系统、服务器信息及系统直接的调用都录入到数据库中2.前端拓扑图、或系统调用关系图的展示UI可以通过一些选项从数据库中捞出数据，然后在UI上动态绘制出关系图来3.如HTML5 Canvas或基于HTML5 Canvas的JTopo
动态修改css中:root定义的变量-换肤、主题色
前端中有用到需要设置主题颜色，根据用户喜欢实现换肤的可以使用css中:root定义变量的方式，或者使用动态切换引入的外部css样式表实现，这里着重记录下动态修改css中:root定义的变量实现换肤：这里定义变量必须是以'--
js中的call
java中对象包含属性和方法, 方法即函数, 只有对象可以调用方法但是js中一切皆对象, 函数是对象, 函数也可以调用方法 Function.prototype.call Function.prototype.apply
刚开始学HTML5 + CSS，用什么软件好
初学者建议使用Adobe Dreamweaver ，这是一款功能非常全面的时候新手学习html+css的软件。熟悉语法之后，热河一款出名的文本编辑器都可以使用的，比如，notepad++，sublime text，还有国产的HBuilder
微信公众号怎么美化
问题一：怎样编辑出特别好看微信公众平台图文推送没有图片说明，我猜你是想问公众号美化的问题。很多排版漂亮的公众号，都是用css+html特效来完成的，如果想自己设计，需要有一些代码基础。直接抄来用也是可以的，原创的很少。问题二
用css选择器如何选择自己的父元素
1.双击打开HBuilderX工具，创建一个新的HTML5静态页面，如下图zd所示:2.在body标签元素中插入多个div标签，并用div将它们嵌套在div中，如下图所示:3.在标题标签下面添加一个样式，设置全局版本的样式，并使用*符号，如
js防水涂料成都的哪个厂家好
建筑防水工程果尔佳还建筑之美 -baidu果尔佳防水官网这里有你想要的！　建筑防水一直是建筑工程中投诉最多的问题之一，层面漏、卫生间漏、厨房漏、外墙漏、地下室也漏，被视为建筑物"癌症"。而有些设计师或施工单位往往
如何更改电脑开机LOGO画面?
1、以Win7 系统为例，可以通过下面的方法进行更改。首先需要搜索下载.bs7格式文件和Win7 Boot Updater，然后将这两个软件安装到电脑上。2、Win7 Boot Updater安装完成后，需要将软件打开。3、目前，该软件还没
请问用js如何给字符串中加换行符？
用js如何给字符串中加换行符的具体操作步骤如下：1、首先，在文件夹下创建index.html文件，然后在html文件中添加基本的页面标签：2、然后，在内部的循环中，每执行一次，就给字符串添加一个换行符，然后最后通过弹窗的方式将字符串显示出
R语言reshape2包处理数据2021.3.6
merge函数通过by选择合并某列的相同值。这个包处理数据与excel包中的透视表有些类似 reshape包包含融合（melt)和重铸(cast），melt函数是将宽数据变为长数据，而cast则是将长数据变为宽数据。 melt
利用电脑赚钱的副业
利用电脑赚钱的副业利用电脑赚钱的副业，人们的生活压力是越来愈大，很多朋友的工资还完贷款后就没有剩余的，最近很多朋友都说想做副业，但是不知道做什么，下面我就来分享一下利用电脑赚钱的副业，快来看看吧利用电脑赚钱的副业1 做微商
python制作分布图
制作分布图类似密度图，在python中利用pandas来提取分布数据是比较方便的。主要用到pandas的cut和groupby等函数。官方文档链接主要参数为x和bins。 x为数据源，数组格式的都支持，list，nump
css3动画连续执行两个怎么做
animation定义和用法animation 属性是一个简写属性，用于设置六个动画属性：animation-nameanimation-durationanimation-timing-functionanimation-delayani
css的#和.的区别
在选择器里#开头的表示的id选择器.开头的表示的是类名选择器类名选择器的优先级要低于id选择器但是通常我们不使用id选择器，id通常是为JS而预留的&ltstyle&gt .con { colo
javascript中怎么实现按钮只能点击一次？
在点击时间处理程序的开始位置，将此按钮设为禁用，同时移除此处理程序与按钮的关联即可。示例：$('#mybtn').click(function(){ $(this).attr('disabled�

推荐阅读

热门文章

最新发布

标签列表

简单NodeJS爬虫和使用cookie进行模拟登录

给您推荐相同类型的内容：