如何使用nodejs做爬虫程序

2023-04-30 19:13:01JavaScript022

如何使用nodejs做爬虫程序,第1张

作者：Mike Chen

链接：https://www.zhihu.com/question/31679802/answer/128390326

来源：知乎

著作权归作者所有，转载请联系作者获得授权。

首先楼主要使用nodejs作为语言或者平台来开发爬虫是没有任何问题的，反而nodejs的event io能够让你感觉到网络编程可以如此酣畅淋漓，一如http://nodejs.org 官网给出的http server 的例子，几行代码就能实现web服务，没有apache 没有tomcat也没有iis，只要设置一个回调，监听一个端口，你就可以使用浏览器访问了。

其次，爬虫是最明显的IO密集型应用场景，显然和擅长处理IO的nodejs是绝配，但是把它用好是需要一些功底的。如果你想要从头开发，不借助第三方框架，那么你需要对nodejs中的event emitter 及 http 模块有深入的了解，加上你的HTTP协议的知识，再到node平台中找到相应的实现方案，从而实现你要的功能。举个例子，使用http模块发送一个GET请求到百度，你需要弄清楚对req，也就是http.get的返回值，监听什么样的事件，http的头部信息和正文信息分别应该在什么阶段获取。在python中方法很直白，简简单单的用urllib来open一个链接，接着read就算完事儿，写到这里突然感觉可以理解之前那位仁兄认为的"不适合"，也许是觉得node 不如python的直白，又或许只是对node的理解不够到位，不好拿捏？

最后，如果楼主想要把node作为平台来开发爬虫，我建议直接从开源框架入手，立刻做出一些可用的程序来给自己一些正反馈，然后再慢慢学习体会。

NodeJS做爬虫也是很方便的。因为nodejs有HTTP模块直接可以使用，而且还有很多简单粗暴的库可以即拿即用。首先，需要的库文件， 1、superagent 是个轻量的的 http 方面的库，就像jquery的post，和get一样，很简单。 2、cheerio 是一个服务端操作DOM的库，简直就是服务端的jquery。好的，我们需要抓取某个网站的题目。如下图。这个系统下，及时是游客状态也是可以查看题目的，只是答案我们看不到。会显示我没有登录。现在我们有个需求，先抓取15页，根据URL的参数可以页数就是地址中的P。并且要有本地cookie，获取cookie的方法，最简单的是，利用浏览器登录网站之后，在控制台直接打印document.cookie，得到之后，复制进txt文本。用fs模块读取并转换成字符串。在superagent请求时，把cookie传进去。好了，控制台已经不输出“未登录”，说明已经登录成功了。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：css屏幕适配问题

# 下一篇：css设置字体间距

给您推荐相同类型的内容：

用python软件画填色的图案,为什么只有海龟路线上有颜色
用python软件画填色的图案，只有海龟路线上有颜色，是设置错误造成的，解决方法如下：1、首先用opencv模块读取图片数据，得到一个三维矩阵。2、然后用numpy模块构造一个二维0矩阵，规模和图像的大小一样。3、接着把图片的第一个通道的
美的天然气热水器jsq30-16ht6有几种颜色
6种。美的燃气热水器由美的卫浴电器公司生产，其中的美的天然气热水器jsq30-16ht6有着6种不同的颜色，美的燃气热水器，拥有4个品类26个系列共计100余款产品，从低端的市场零售价300元至高端6000元零售价的产品均有覆盖。产品品种齐
电脑旁放什么植物最好
电脑旁适合放的植物：豆瓣绿豆瓣绿的外形小巧可爱，非常惹人喜爱。即使没有其他的作用，把它放在电脑旁边也能舒缓你的心情。想一下，繁忙的工作中，一抬头看到一抹亮眼的绿色，心情是不是也变好了呢。豆瓣绿的作用可不止于此，豆瓣绿在一种植物中，吸收辐射的
js把字符串转换成数组
一、数组转字符串需要将数组元素用某个字符连接成字符串，示例代码如下：var a, ba = new Array(0,1,2,3,4)b = a.join("-")二、字符串转数组实现方法为将字符串按某个字符切割成若干个字
css为什么一取消背景图片排版就乱了
1. float元素务必指定width属性很多浏览器在显示未指定width的float元素时会有bug。所以不管float元素的内容如何，一定要为其指定width属性。另外指定元素时尽量使用em而不是px做单位。2. float元素不能指定
C语言入门经典书籍有哪些？
1.C语言入门经典(第5版)C语言是每一位程序员都应该掌握的基础语言。C语言是微软.NET编程中使用的C#语言的基础；C语言是iPhone、iPad和其他苹果设备编程中使用的Objective-C语言的基础；C语言是在很多环境中(包括GN
js7-a型时间继电器触头有哪几种
时间继电器分两种类型"通电延时型和断电延时型"。JS7-1A、JS7-2A属于通电延迟时间继电器，其中JS7-2A带一对瞬时动作触头。JS7-3A、JS7-4A属于断电延迟时间继电器，其中JS7-4A带一对瞬时动作触头。
CSS一个盒子在另一个盒子水平垂直居中
链接：https:zhuanlan.zhihu.comp39437057 第一种：利用负的margin来进行居中，需要知道固定宽高，限制比较大。 body&gtdiv:nth-of-type(1){ width:40
java 中怎么把一个字以十六进制的方式输出
public class PrintHex { 备选字符static final char digits[] = {'0', '1', '2', '3',
Python挑战100题（14~20）
题目：给你个小写英文字符串a和一个非负数b(0&lt=b&lt26), 将a中的每个小写字符替换成字母表中比它大b的字母。这里将字母表的z和a相连，如果超过了z就回到了a。例如a="cagy",
C语言堆排序法谁能通俗易懂又清晰地讲解一下？谢谢
您可以找本数据结构的书看看，比如清华严尉敏的《数据结构》以下摘抄于 http:student.zjzk.cncourse_waredata_structurewebpaixupaixu8.4.2.1.htm 这个网站的讲解挺不
python 怎么画爱心？如何在Python里面画爱心啊？求解
Python可以使用turtle库来画爱心。 Turtle库是Python语言中一个很流行的绘制图像的函数库，想象一个小乌龟，在一个横轴为x、纵轴为y的坐标系原点，(0,0)位置开始，它根据一组函数指令的控制，在这个平面坐标系中移动，从而在
如何在dreamwaver中编辑css时让css可以单列排列？比如下面这样
快捷键：ctrl+u点击css，弹出css源格式选项，如下图将红框内的钩去掉，点确定！菜单栏：命令-&gt应用源格式，如下图：设置完成！！开通2012版旺铺的朋友都会发现淘宝越来越向广大卖家朋友开放了，其中最重要的体现是支持自定义
如何用javascript正则表达式验证身份证号
很简单function CheckCardNo(card) { 身份证号码为15位或者18位，15位时全为数字，18位前17位为数字，最后一位是校验位，可能为数字或字符X var reg = (^d{15}$)|(^d
如何让CSS的标签兼容不同的浏览器
如何让CSS的标签兼容不同的浏览器在不同浏览器，标签呈现的效果是有区别的。所以小面我来谈谈如何让CSS的标签兼容不同的浏览器。作为块级元素的标签，在写CSS文件时，最好定义行高line-height，不要定义高度he
R语言变量
变量为我们提供了程序可以操作的命名存储， R语言中的变量可以存储原子向量，原子向量组或许多Robject的组合。有效的变量名称由字母，数字和点或下划线字符组成。变量名以字母或不以数字后跟的点开头。变量赋值可以使用向左，向右和等于
如何用C语言改变合泰单片机自带PWM的频率,如1KHZ,2KHZ,等等频率
#include &ltreg52.h&gt#define uint unsigned int#define uchar unsigned char#define ulong unsigned long sbit Waveo
CSS如何实现动画？
创建动画序列，需要使用animation属性或其子属性，该属性允许配置动画时间、时长以及其他动画细节，但该属性不能配置动画的实际表现，动画的实际表现是由 @keyframes规则实现，具体情况参见使用keyframes定义动画序列小节部分。
不会电脑的人如何快速学电脑？
零基础学电脑的方法：1、学习电脑首先要树立信心。电脑并不难，即使是从未接触过电脑，只要肯学，一点一点学习一定可以学会。2、从鼠标键盘开始。学习电脑首先要学会使用鼠标键盘，只要知道怎么用就可以了，操作很慢也不要紧。在之后的学习中你会越来越熟
【R语言】--- 箱型图
箱线图主要是通过四分位数描述数据分布，通过最大值，上四分位数，中位数，下四分位数，最小值五处位置描述数据分布情况。箱线图能够显示出可能为离群点（范围±1.5*IQR以外的值，IQR表示四分位距，即上四分位数与下四分位数的差值）的观测。从箱线
JAVA23种设计模式
设计模式主要分三个类型:创建型、结构型和行为型。其中创建型有：一、Singleton，单例模式：保证一个类只有一个实例，并提供一个访问它的全局访问点二、Abstract Factory，抽象工厂：提供一个创建一系列相关或相互依赖对象的
电脑的重要性英语作文80字翻译
很高兴第一时间为您解答，祝学习进步。如有问题请及时追问，谢谢~~O(∩_∩)OThe family computer is small and not very expensive, but it has a good look.It
css修改图标的位置下沉一点
&ltdiv style="text-align: center"&gt&ltdiv style="margin: 0 autoheight: 24pxwidth: 240px"
468封边机是什么意思
468封边机是一款机器。极东封边机468特点是精度很高,采用HMPU(聚氨脂)基料热熔胶,封边严丝合缝。极东468封边机采用简洁大气的设计风格。而且细节处体现出精致的品质感。加上高规格的做工，普通封边机具备基础功能设置。精湛的品质，更具高端
c语言的五子棋代码（博弈算法）
#include &ltstdio.h&gt#include &ltbios.h&gt#include &ltctype.h&gt#include &ltconio.h&gt#
什么是CSS样式,以及CSS样式包含那几种类型?
CSS即层叠样式表（Cascading Style Sheets），是一种用来表现HTML或XML等文件样式的计算机语言。CSS样式主要包含以下三种类型：1、行内样式（内嵌样式）：结构的内部，即写在标签内的样式；写在标签的开始部分内部，
js在构造函数里面原型重写
js在构造函数里面原型重写就是prototype.xxx，xxx是用户自定义的函数名。比如定义一个add方法，写法如下：Number.prototype.add = function(num){return(this+num)}protot
一般电脑里看图片的软件叫什么
一般电脑里看图片的软件叫：Windows 照片查看器，电脑中的图片也可以使用画图软件或者浏览器打开。在电脑中查看图片的方法：1、首先在电脑中找到需要查看的图片，点击鼠标右键，在弹出的选项中点击“打开方式”。2、然后在“打开方式”中选择“
css设置div整体居中
你好，可以通过margin或padding来实现，如下水平居中：margin: 0 auto垂直居中：margin-top: 50% 这个值根据具体情况而定也可以通过定位的方式来固定位置css里面有个概念叫选择器，HTML文档中的每一
js操作对象中点操作和中括号操作的区别
如：&ltscript type="textjavascript"&gt var author = book.author 得到book的"author"属性 var na

推荐阅读

热门文章

最新发布

标签列表

如何使用nodejs做爬虫程序

给您推荐相同类型的内容：