简单NodeJS爬虫和使用cookie进行模拟登录

2023-02-19 05:51:02JavaScript011

简单NodeJS爬虫和使用cookie进行模拟登录,第1张

NodeJS做爬虫也是很方便的。因为nodejs有HTTP模块直接可以使用，而且还有很多简单粗暴的库可以即拿即用。首先，需要的库文件， 1、superagent 是个轻量的的 http 方面的库，就像jquery的post，和get一样，很简单。 2、cheerio 是一个服务端操作DOM的库，简直就是服务端的jquery。好的，我们需要抓取某个网站的题目。如下图。这个系统下，及时是游客状态也是可以查看题目的，只是答案我们看不到。会显示我没有登录。现在我们有个需求，先抓取15页，根据URL的参数可以页数就是地址中的P。并且要有本地cookie，获取cookie的方法，最简单的是，利用浏览器登录网站之后，在控制台直接打印document.cookie，得到之后，复制进txt文本。用fs模块读取并转换成字符串。在superagent请求时，把cookie传进去。好了，控制台已经不输出“未登录”，说明已经登录成功了。

手动输入吗？可以这样： //截验证码图 casper.echo('input code')casper.wait(10000)//在wait完前看图，输入验证码到指定文件 casper.then(function(){ var code = fs.read("code.txt")})

Ruby中爬虫的实现

Ruby中实现网页抓取，一般用的是mechanize，使用非常简单。安装

sudo gem install mechanize

抓取网页

require 'rubygems'

require 'mechanize'

agent = Mechanize.new

page = agent.get('http://google.com/')

模拟点击事件

page = agent.page.link_with(:text =>'News').click

模拟表单提交

google_form = page.form('f')

google_form["q"] = 'ruby mechanize'

page = agent.submit(google_form, google_form.buttons.first)

pp page

分析页面，mechanize用的是nokogiri解析网页的，所以可以参照nokogiri的文档

table = page.search('a')

text = table.inner_text

puts text

有几点注意的地方：如果需要先登录的网页，那么可以在网站先登录，登录后记录JSESSIONID，然后赋值给agent

cookie = Mechanize::Cookie.new("JSESSIONID", "BA58528B76124698AD033EE6DF12B986:-1")

cookie.domain = "datamirror.csdb.cn"

cookie.path = "/"

agent.cookie_jar.add!(cookie)

如果需要保存网页，使用.save_as，(或许save也可以，我没试过)例如

agent.get("google.com").save_as

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：div+ css的好处？

# 下一篇：推荐计算机基础知识学习的书籍

给您推荐相同类型的内容：

新电脑怎么安装打印机
问题一：如何在电脑上安装打印机第一步:将打印机连接至主机，打开打印机电源，通过主机的“控制面板”进入到“打印机和传真”文件夹，在空白处单击鼠标右键，选择“添加打印机”命令，打开添加打印机向导窗口。选择“连接到此计算机的本地打印机”，并勾
晚上用电脑用白光灯好还是黄光灯
确切的说，白光灯就是荧光灯，黄光灯是白炽灯。白炽灯的光源更加接近自然光，所以对眼睛的视力好些。至于说亮度，可以选用度数低的灯泡。或者可以调节亮度的台灯最好。荧光灯对视力不是很好，尽量不用。问题一：电脑的灯光怎么把它调亮台式电脑：屏幕底下
js是不是多练习练习就会了，我的基础很差，该怎么练习，看视频还是看书
你好，我分享一下我自学js的经验。首先看书是肯定的，而且要一边看一边写代码。入门书推荐《javascript权威指南》《javascript高级程序设计》《javascript王者归来》。再是学习用一个js框架是必须的，当前肯定是选择jQ
组装电脑常说的MOD是什么意思
在计算机方面MOD主要是指运用各种工具对计算机的硬件如：机箱、电源等进行改善或改造。和diy有一定的区别。MOD就是改造，DIY就是创造。计算机硬件MOD主要可以分为两大类，一类是功能性改造，即为原有设备添加更多实用的功能。比如为老机箱添
电脑显示器怎么当电视用
想知道电脑的显示器怎么当成电视用吗，下面是我带来的关于的内容，欢迎阅读!电脑显示器当电视用方法一：1、先用音讯线和视讯线【音讯线红和白，视讯线黄】的一端接至机顶盒上的“右声道”、“左声道”、“视讯”红、白、黄埠，
电脑关闭程序快捷键
电脑关闭程序快捷键是“ALT+F4”。“ALT+F4”是一个快速退出或者结束当前正在运行应用程序的快捷键。其他快捷键如下：1、Win键：打开“开始”菜单。2、Win键+E：打开我的电脑。3、Win键+R：打开运行对话框。4、Win
如何用javascript设置延时执行
二、JavaScript 的计时事件的函数setTimeout() - 在指定时间后执行代码clearTimeout() - 取消 setTimeout()注意:setTimeout() 和 clearTimeout() 都是HTML DO
电脑上面的音频接口是干什么的？
粉红色插孔代表麦克风（麦克风），用于连接麦克风输入声音。绿色插孔表示音频输出，用于连接扬声器、耳机和其他声音播放设备。蓝色插孔表示音频输入，用于连接音频输入设备。扩展电脑音频接口的重要性：在生活中，我们需要使用电脑来获取各种信息和视频，众
红宝石的主要特征与挑选
红宝石的主要特征红宝石（Ruby）集中体现了高级宝石的三个主要特征：迷人的美丽、优秀的耐久性和极高的稀有性。红宝石（Ruby）的美首先体现在其独一无二的红色上。虽然在自然界中红色的宝石有很多种，但唯有红宝石（Ruby）的红色能
现在的大学电脑上网是用无线网络，还是插网线?
这个具体看学校，一般现在大部分都有wifi，也可能一些还是用的网线的，不过网线的也可以自己装个无线路由器无线宽带，是运用CPE设备把运营商4G或者5G信号转成家用网络。无线CPE路由器是实现无线宽带的核心。目前市场体验得比较多的是腾讯极光C
h5做app和原生app有什么区别？
H5APP即是一种框架型APP开发模式(HTML5APP框架开发模式)，该开发具有跨平台的优势，该模式通常由“HTML5云网站+APP应用客户端”两部份构成，APP应用客户端只需安装应用的框架部份，而应用的数据则是每次打开APP的时候，去云
推荐计算机基础知识学习的书籍
1、《计算机基础（第二版）》——姜岩、王秀玲本书介绍了信息与计算机的基础知识、Windows XP操作系统的基本操作和基本使用知识、Word2003文字处理软件的基本知识、Excel 2003电子表格处理软件的基本知识和PowerPoi
html如何让两张图片出现同一行
亲，这个答案是可以的，不过有一点需要说明的是，两张图片家里来的宽度不能超过设定的页面宽度，比如说你的页面宽度为980像素，那么你的两张图片的宽度就不能超过980，否则就不能。图片并排列需要补充的是如果图片超出了最大的范围，可以使用img的
怎样用电脑登录微信？
微信已推出网页版，现在可直接在电脑上使用微信！使用方式较特别，步骤如下，1. 首先，智能手机必须安装最新的微信版本（目前是4.2版）。2. 在电脑上打开微信网页版地址（百度中不能输入网址链接，具体地址请搜索，或去微信官网首页点击 “试一试在
黑客用什么电脑配置
黑客的电脑基本用的配置不是很高的，比较吃CPU一些，编写病毒的程序并不需要很高的配置，入门的配置都可以的，这个就看黑客的个人爱好了，有些黑客还很喜欢玩游戏，那么配置就很高，有些不喜欢玩，基本我们家用的电脑就足够了。基本主流的配置参考如下：
怎么把自己QQ空间里的相册下载到电脑上
1、首先登录QQ，进入到QQ空间2、打开自己的相册，找到需要下载到电脑上的图片或者相片；3、选择自己需要下载的相册，进入相册，选中图片，右键点击该图片，选择“另存为”4、之后选择电脑，点击“下载”5、QQ空间相册目前不支持下载，所有只能一张
如何把本地电脑做成服务器
1、点击‘开始’，打开‘控制面板’。2、打开‘程序’。3、打开‘程序和功能’下的‘打开或关闭Windows功能’。4、将‘Internet信息服务’下所有选项全勾上，然后点击‘确定’，稍等一会儿便可完成修改。5、待修改完成后，转到‘控制面板
电脑玩黑暗骑士需怎样的配置
越高越好！CPU英特尔 Core i7-3930K @ 3.20GHz 六核主板微星 X79A-GD65 (8D) (MS-7760) (英特尔 DMI2 - Intel X79 PCH -)显卡ATI Radeon HD 797
Introduction
引言朗文精选JS1-3是一种全新的第二版中级教程，该教程以1999年第二版英语教学大纲1-5 的关键阶段3中的学习目的和目标为基础。---------------------------------------不知可不可以，本人水平有限，见
r语言a±b如何表示比如4±5？
你是想将a加减b表示为字符串吗？如果是的话你有两种办法可以实现。方法一：直接复制粘贴到R。方法二（最保险）：使用unicode。比如"A U00B5 gdL"，其中U00B5就表示希腊字母miu。所有的文字符号均可
如何将.cshtml代码转化为.html代码
cshtml是ASP.net平台的代码文件，原则上讲只有在运行时，cshtml才会动态生成html代码并发送到客户端，所以你想要100%地把cshtml“转换”成html是不可能的，因为你不可能知道所有变量的运行时值。当然，如果你的csht
天谕电脑上怎么玩？
下载个模拟器再下载风林手游APP搜索对应游戏。玩天谕通过风林手游下载：http:www.14294.com?ct=shouyou&ampac=info&ampgid=4925。进入游戏后点开左侧专属工具栏，里面有该游
css怎么做才能只显示图片的一部分
CSS Sprite需要知道大图的网地，小图标在图上的位置偏移（写进css里的background-position要加负号），和大小。&ltstyle&gt.icon { background:url(backgro
苹果电脑怎么格式化u盘？
1、换台电脑格式化试一试，最好找台式机。2、用我的电脑、管理、磁盘管理器中对U盘进行格式化，注意看清楚U盘的盘符，不要把电脑其他盘格式化了，同时注意格式化前U盘识别是不是原来大小，如果是就按此条操作，如果只有8KB，或1M以下了，就判定U
电脑显示器型号在哪看
电脑显示器型号在哪看：1、在显示器背后的显示数据线的接口下方有一个铭牌，上面印有生产日期、序列号、制造商、地址、产品名称、型号、电源等信息； 2、在显示器背面的电源线插头下方的一个铭牌上印有型号、名称、序号、电压、电流、频率、重量等信息。
电脑屏幕被碰烂了还能修好吗还是需要直接换新的？
正常来说电脑屏幕碎了之后是没有办法进行修复的，最好的方式就是需要更换新的屏幕，不过现在更换新的屏幕价格还是非常高的，所以大家也需要了解清楚相应的费用。大家可以自己购买一个新的液晶屏幕，然后直接找人进行更换，这样就只需要支付相应的人工费用就可
用什么软件可以做头像呢？自己做的。
自己做头像的软件有：画图、PS等图像处理软件。画图工具就是简单的处理，如图像加字，放大缩小等。PS可以做各种特效，如虚化，羽化，多张图片进行不规则拼接。各种大头像尺寸腾讯微博的大头像是180×180，小头像是100×100新浪微博
联通，电信，网通，移动，哪个电脑宽带好？
现在国家网营部承认的网络营运商有电信，联通（网通），移动。关于谁好基本上是南电信，北联通，移动实惠，至于怎么选择，就要看具体的上网需求了，电信和联通由于起步早，玩大型网游肯定比移动的好。如果不玩大型网游，从利用率和资费而言，推荐安装移动的网
用VB编写一个闹钟程序
做一个简单的闹钟程序很简单的。我这里不用if语句。首先我们在窗体上添加一个标签控件，再画一个“闹钟”，将闹钟得interval属性改为1000，双击闹钟，进入闹钟的代码视图，编写代码privatesubtimer1_timer（）label
com口指纹仪转usb
首先驱动安装好后，然后右键点击我的电脑，选择设备管理器，连接上转换线或扩展卡，选择“端口”，选择“相应端口”。其次通过拔，插转换线，拔下转换线消失，插上出现的那个就是。然后左键双击该端口，对话框中选择设置，高级，最后将COM(没准是什么数）

推荐阅读

热门文章

最新发布

标签列表

简单NodeJS爬虫和使用cookie进行模拟登录

给您推荐相同类型的内容：