简单NodeJS爬虫和使用cookie进行模拟登录

2023-02-19 05:51:02JavaScript032

简单NodeJS爬虫和使用cookie进行模拟登录,第1张

NodeJS做爬虫也是很方便的。因为nodejs有HTTP模块直接可以使用，而且还有很多简单粗暴的库可以即拿即用。首先，需要的库文件， 1、superagent 是个轻量的的 http 方面的库，就像jquery的post，和get一样，很简单。 2、cheerio 是一个服务端操作DOM的库，简直就是服务端的jquery。好的，我们需要抓取某个网站的题目。如下图。这个系统下，及时是游客状态也是可以查看题目的，只是答案我们看不到。会显示我没有登录。现在我们有个需求，先抓取15页，根据URL的参数可以页数就是地址中的P。并且要有本地cookie，获取cookie的方法，最简单的是，利用浏览器登录网站之后，在控制台直接打印document.cookie，得到之后，复制进txt文本。用fs模块读取并转换成字符串。在superagent请求时，把cookie传进去。好了，控制台已经不输出“未登录”，说明已经登录成功了。

手动输入吗？可以这样： //截验证码图 casper.echo('input code')casper.wait(10000)//在wait完前看图，输入验证码到指定文件 casper.then(function(){ var code = fs.read("code.txt")})

Ruby中爬虫的实现

Ruby中实现网页抓取，一般用的是mechanize，使用非常简单。安装

sudo gem install mechanize

抓取网页

require 'rubygems'

require 'mechanize'

agent = Mechanize.new

page = agent.get('http://google.com/')

模拟点击事件

page = agent.page.link_with(:text =>'News').click

模拟表单提交

google_form = page.form('f')

google_form["q"] = 'ruby mechanize'

page = agent.submit(google_form, google_form.buttons.first)

pp page

分析页面，mechanize用的是nokogiri解析网页的，所以可以参照nokogiri的文档

table = page.search('a')

text = table.inner_text

puts text

有几点注意的地方：如果需要先登录的网页，那么可以在网站先登录，登录后记录JSESSIONID，然后赋值给agent

cookie = Mechanize::Cookie.new("JSESSIONID", "BA58528B76124698AD033EE6DF12B986:-1")

cookie.domain = "datamirror.csdb.cn"

cookie.path = "/"

agent.cookie_jar.add!(cookie)

如果需要保存网页，使用.save_as，(或许save也可以，我没试过)例如

agent.get("google.com").save_as

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：div+ css的好处？

# 下一篇：推荐计算机基础知识学习的书籍

给您推荐相同类型的内容：

现在的大学电脑上网是用无线网络，还是插网线?
这个具体看学校，一般现在大部分都有wifi，也可能一些还是用的网线的，不过网线的也可以自己装个无线路由器无线宽带，是运用CPE设备把运营商4G或者5G信号转成家用网络。无线CPE路由器是实现无线宽带的核心。目前市场体验得比较多的是腾讯极光C
电脑玩黑暗骑士需怎样的配置
越高越好！CPU英特尔 Core i7-3930K @ 3.20GHz 六核主板微星 X79A-GD65 (8D) (MS-7760) (英特尔 DMI2 - Intel X79 PCH -)显卡ATI Radeon HD 797
用VB编写一个闹钟程序
做一个简单的闹钟程序很简单的。我这里不用if语句。首先我们在窗体上添加一个标签控件，再画一个“闹钟”，将闹钟得interval属性改为1000，双击闹钟，进入闹钟的代码视图，编写代码privatesubtimer1_timer（）label
如何将.cshtml代码转化为.html代码
cshtml是ASP.net平台的代码文件，原则上讲只有在运行时，cshtml才会动态生成html代码并发送到客户端，所以你想要100%地把cshtml“转换”成html是不可能的，因为你不可能知道所有变量的运行时值。当然，如果你的csht
用什么软件可以做头像呢？自己做的。
自己做头像的软件有：画图、PS等图像处理软件。画图工具就是简单的处理，如图像加字，放大缩小等。PS可以做各种特效，如虚化，羽化，多张图片进行不规则拼接。各种大头像尺寸腾讯微博的大头像是180×180，小头像是100×100新浪微博
怎样将电脑中的文件转移到其他盘？
1、首先打开“这台电脑”选项，进入到C盘界面，右键选择其中要转移的文件，选择“剪切”选项，退回这台电脑界面，进入到D盘界面，在对应的位置进行粘贴即可。 2、插入一个U盘，将C盘界面内多余的文件转移到U盘，将C盘内的原文件
天谕电脑上怎么玩？
下载个模拟器再下载风林手游APP搜索对应游戏。玩天谕通过风林手游下载：http:www.14294.com?ct=shouyou&ampac=info&ampgid=4925。进入游戏后点开左侧专属工具栏，里面有该游
电脑关闭程序快捷键
电脑关闭程序快捷键是“ALT+F4”。“ALT+F4”是一个快速退出或者结束当前正在运行应用程序的快捷键。其他快捷键如下：1、Win键：打开“开始”菜单。2、Win键+E：打开我的电脑。3、Win键+R：打开运行对话框。4、Win
html如何让两张图片出现同一行
亲，这个答案是可以的，不过有一点需要说明的是，两张图片家里来的宽度不能超过设定的页面宽度，比如说你的页面宽度为980像素，那么你的两张图片的宽度就不能超过980，否则就不能。图片并排列需要补充的是如果图片超出了最大的范围，可以使用img的
新电脑怎么安装打印机
问题一：如何在电脑上安装打印机第一步:将打印机连接至主机，打开打印机电源，通过主机的“控制面板”进入到“打印机和传真”文件夹，在空白处单击鼠标右键，选择“添加打印机”命令，打开添加打印机向导窗口。选择“连接到此计算机的本地打印机”，并勾
电脑屏幕被碰烂了还能修好吗还是需要直接换新的？
正常来说电脑屏幕碎了之后是没有办法进行修复的，最好的方式就是需要更换新的屏幕，不过现在更换新的屏幕价格还是非常高的，所以大家也需要了解清楚相应的费用。大家可以自己购买一个新的液晶屏幕，然后直接找人进行更换，这样就只需要支付相应的人工费用就可
如何在CSS里面定义一个立体感很强的按钮
border-color: black #000000 #000000 black你把边框都设置成了黑的，当然看不出立体感了！！--&gtborder-color: gray #000000 #000000 gray能否说得详细一点
com口指纹仪转usb
首先驱动安装好后，然后右键点击我的电脑，选择设备管理器，连接上转换线或扩展卡，选择“端口”，选择“相应端口”。其次通过拔，插转换线，拔下转换线消失，插上出现的那个就是。然后左键双击该端口，对话框中选择设置，高级，最后将COM(没准是什么数）
电脑显示器怎么当电视用
想知道电脑的显示器怎么当成电视用吗，下面是我带来的关于的内容，欢迎阅读!电脑显示器当电视用方法一：1、先用音讯线和视讯线【音讯线红和白，视讯线黄】的一端接至机顶盒上的“右声道”、“左声道”、“视讯”红、白、黄埠，
如何用javascript设置延时执行
二、JavaScript 的计时事件的函数setTimeout() - 在指定时间后执行代码clearTimeout() - 取消 setTimeout()注意:setTimeout() 和 clearTimeout() 都是HTML DO
电脑显示器型号在哪看
电脑显示器型号在哪看：1、在显示器背后的显示数据线的接口下方有一个铭牌，上面印有生产日期、序列号、制造商、地址、产品名称、型号、电源等信息； 2、在显示器背面的电源线插头下方的一个铭牌上印有型号、名称、序号、电压、电流、频率、重量等信息。
Introduction
引言朗文精选JS1-3是一种全新的第二版中级教程，该教程以1999年第二版英语教学大纲1-5 的关键阶段3中的学习目的和目标为基础。---------------------------------------不知可不可以，本人水平有限，见
css怎么做才能只显示图片的一部分
CSS Sprite需要知道大图的网地，小图标在图上的位置偏移（写进css里的background-position要加负号），和大小。&ltstyle&gt.icon { background:url(backgro
怎样用电脑登录微信？
微信已推出网页版，现在可直接在电脑上使用微信！使用方式较特别，步骤如下，1. 首先，智能手机必须安装最新的微信版本（目前是4.2版）。2. 在电脑上打开微信网页版地址（百度中不能输入网址链接，具体地址请搜索，或去微信官网首页点击 “试一试在
h5做app和原生app有什么区别？
H5APP即是一种框架型APP开发模式(HTML5APP框架开发模式)，该开发具有跨平台的优势，该模式通常由“HTML5云网站+APP应用客户端”两部份构成，APP应用客户端只需安装应用的框架部份，而应用的数据则是每次打开APP的时候，去云
Vscode 使用less自动生成css
第一，在扩展包搜索 less ,找到 easy less 第二，安装完记得重启第三，ctrl+, 快捷键打开设置，也可以在文件 &gt首选项 &gt设置第四，搜 less.complie ，
小米平板电脑哪款最好2022
小米平板电脑小米5pro这款个人认为是最好的。屏幕艳丽，支持HDR+，触感灵敏，自带的系统动画效果，逼真有趣，特别提一下，8个声道杜比音效，营造出震撼的效果，真的太棒了！骁龙870，打游戏、追剧、学网课都绰绰有余，没有压力可言。如果仅仅只
计算机中的内存是什么？
计算机内存主要有两种：1、随机存取存储器RAM(RandomAccessMemory)，它即可读也可写。2、只读存储器ROM(ReadOnlyMemory)，顾名思义，它只能被读取而不能被写入。1.随机存储器（RandomAccessMem
绘图用什么笔记本好
问题一：绘图使用什么笔记本电脑好如果是普通的CAD制图，那么普通拥有独显的机型即可完成，如果是3D建模或者制图，那么就需要配置专业显卡的图形工作站了。专业显卡是指应用于图形工作站上的显示卡，它是图形工作站的核心。从某种程度上来说，
笔记本电脑如何更换屏幕，超详细教程，新手必看
笔记本电脑如何更换屏幕呢？有些朋友想换电脑屏幕确不知道怎么换，接下来我就为大家分享一下笔记本电脑更换屏幕的方法，超详细教程，新手必看。工具材料笔记本电脑 01如图，可以看到电脑屏幕是蓝色的，鼠标点击右键，选择个性化。
如何将dvd复制到电脑
如何将dvd复制到电脑在日常的生活中我们常常需要将DVD上的资料复制到电脑上来。那么怎么将dvd复制到电脑呢?下面就让我来告诉大家吧，欢迎阅读。以下仅供参考！具体方法如下： 1、将DVD插入驱动器进行读取。2
红宝石的主要特征与挑选
红宝石的主要特征红宝石（Ruby）集中体现了高级宝石的三个主要特征：迷人的美丽、优秀的耐久性和极高的稀有性。红宝石（Ruby）的美首先体现在其独一无二的红色上。虽然在自然界中红色的宝石有很多种，但唯有红宝石（Ruby）的红色能
结婚买电脑，是台式好还是笔记本好？
仅仅家用，建议台式的~最好不要什么品牌机，找个熟人去组装一台，挑最好的配件，组装的五千的话配置已经很高了。差不多的机器好配件的话4000左右也就够了。希捷硬盘，技嘉主板，金士顿内存，酷睿双核，七彩虹显卡牌子都不错.你的这个配置不好，首先你的
r语言a±b如何表示比如4±5？
你是想将a加减b表示为字符串吗？如果是的话你有两种办法可以实现。方法一：直接复制粘贴到R。方法二（最保险）：使用unicode。比如"A U00B5 gdL"，其中U00B5就表示希腊字母miu。所有的文字符号均可
黑客用什么电脑配置
黑客的电脑基本用的配置不是很高的，比较吃CPU一些，编写病毒的程序并不需要很高的配置，入门的配置都可以的，这个就看黑客的个人爱好了，有些黑客还很喜欢玩游戏，那么配置就很高，有些不喜欢玩，基本我们家用的电脑就足够了。基本主流的配置参考如下：

推荐阅读

热门文章

最新发布

标签列表

简单NodeJS爬虫和使用cookie进行模拟登录

给您推荐相同类型的内容：