如何使用nodejs做爬虫程序

2023-02-21 13:01:02JavaScript011

如何使用nodejs做爬虫程序,第1张

NodeJS制作爬虫全过程：

1、建立项目craelr-demo

建立一个Express项目，然后将app.js的文件内容全部删除，因为暂时不需要在Web端展示内容。当然我们也可以在空文件夹下直接 npm install express来使用需要的Express功能。

2、目标网站分析

如图，这是CNode首页一部分div标签，就是通过这一系列的id、class来定位需要的信息。

3、使用superagent获取源数据

superagent就是ajax API来使用的Http库，它的使用方法与jQuery差不多，通过它发起get请求，在回调函数中输出结果。

代码如下：

var express = require('express')

var url = require('url')//解析操作url

var superagent = require('superagent')//这三个外部依赖不要忘记npm install

var cheerio = require('cheerio')

var eventproxy = require('eventproxy')

var targetUrl = 'https://cnodejs.org/'

superagent.get(targetUrl)

.end(function (err, res) {

console.log(res)

})

4、使用cheerio解析

cheerio充当服务器端的jQuery功能，先使用它的.load()来载入HTML，再通过CSS selector来筛选元素。

代码如下：

var $ = cheerio.load(res.text)

//通过CSS selector来筛选数据

$('#topic_list .topic_title').each(function (idx, element) {

console.log(element)

})

5、使用eventproxy来并发抓取每个主题的内容

eventproxy就是使用事件(并行)方法来解决这个问题。当所有的抓取完成后，eventproxy接收到事件消息自动帮你调用处理函数。

代码如下：

//第一步：得到一个 eventproxy 的实例

var ep = new eventproxy()

//第二步：定义监听事件的回调函数。

//after方法为重复监听

//params: eventname(String) 事件名,times(Number) 监听次数, callback 回调函数

ep.after('topic_html', topicUrls.length, function(topics){

// topics 是个数组，包含了 40 次 ep.emit('topic_html', pair) 中的那 40 个 pair

//.map

topics = topics.map(function(topicPair){

//use cheerio

var topicUrl = topicPair[0]

var topicHtml = topicPair[1]

var $ = cheerio.load(topicHtml)

return ({

title: $('.topic_full_title').text().trim(),

href: topicUrl,

comment1: $('.reply_content').eq(0).text().trim()

})

//outcome

console.log('outcome:')

console.log(topics)

})

//第三步：确定放出事件消息的

topicUrls.forEach(function (topicUrl) {

superagent.get(topicUrl)

.end(function (err, res) {

console.log('fetch ' + topicUrl + ' successful')

ep.emit('topic_html', [topicUrl, res.text])

})

6、爬取结果分析

扒数据用node肯定是没问题，如果要做到最优解析的话，肯能相对困难，但是对于固定样式页面，问题还是不大的。如果要通用又要能解析好，建议直接外挂phantomjs，但是这样无法保证效率

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：CSS 清除浮动问题

# 下一篇：怎么在电脑上下载淘宝卖家版

给您推荐相同类型的内容：

电脑锁屏了怎么解
重新启动电脑，启动到系统登录界面时，同时按住Ctrl+Alt键，然后连击Del键两次，会出现新的登录界面，用户名处输入“Administrator”密码为空，回车即可登录，登录后，打开控制面板选用户账户更改账户点击原来的“账户名”更
css篇-mask-image + linear-gradient 优雅显示富文本过长
明人不说暗话，直接上例子由于富文本属于长文本，在页面上我们会有这种超出隐藏的功能需求，如果是纯文本的话，我们大可以用slice截取字符串的方式来先显示几个字的方式，但是由于富文本是由不同的html标签组成，这样的我们就会显
js防抖函数的使用
function debounce(func, delay) { let timer 当前的this是指向window return function (...args) { 当前的this是指向dom元素 if
app跳转h5怎么验证h5登录信息
1.要求用户必须登录才能打开的H5：（1）具体流程：APP入口Btn-》APP登录页面-〉在url上拼接userId-》打开url（2）在url里增加一个参数 needlogin=1 ，来提示app，先进行登录，登录完后，再打开url，
jquery 或者js 怎么获取页面光标所在的元素？
需要准备的材料分别有：电脑、html编辑器、浏览器。1、首先，打开html编辑器，新建html文件，例如：index.html，编写基础代码。2、在index.html中的&ltscript&gt标签，输入js代码：va
用网页直接访问jsp正常，但是用action跳转之后js就失效了，报错是js里面的方法没有执行，求大神帮助
提供的信息量太少，只能说下可能的原因了。如果你js引入路径src=“jsxxx.js”用action访问的话前面会加上你访问action命名空间的名字。如：userxxx.action,jsp引入的路径会变成http：ip:端口
怎样能很快在电脑上打字
每个手指都有明确分工，只要向受过专门培训的人士一问便知。缺定后，一定要耐下心来，练习几次，另外参与聊天也是提高打字速度的一个比较有趣方法（当然还有其它练习的提高方法。），采用“智能ABC”的打字方法来的更快，如果你有决心能够攻破“五笔”的打
傲虎音响css怎么调效果最好
您好，傲虎音响CSS的调效果最好的方法是：首先，您需要了解傲虎音响CSS的特性，以及它的调音参数。其次，您需要根据您的音乐风格和喜欢的音色，来调整调音参数，以达到最佳的音效。最后，您可以根据您的音乐风格，来调整音量，音色，音调，以及其他参数
## CSS选择器
## CSS选择器# 标签选择器 # id选择器 # 类选择器 # 后代选择器 # 子元素选择器 # 交集选择器 # 并集选择器 # 兄弟选择器(相邻兄弟选择器通用兄弟选择器) # 序选择器(CSS3中最具
css画出各种不规则图形
1、圆形 #circle{width:100pxheight:100pxbackground:red-moz-border-radius:50px-webkit-border-radius:50pxborder-radius:50px}
怎么在电脑上下载淘宝卖家版
具体做法如下：1、第一步百度搜索“淘宝千牛下载”，点击“千牛”，如下图所示。2、进入页面后选择“下载千牛”。3、选择“电脑客户端下载”，如下图所示。4、选择需要下载到的地方，点击“立刻下载”。5、下载完成之后找到安装包，双击进行安装。6、
HTML样式CSS的三种写法
CSS是样式层叠表，有三种引入方式。下面，我们来看看HTML样式CSS的三种写法吧。行内样式 CSS可以直接放到行内样式中引入即可，比如代码如下图： &ltp style="color: bluebackgr
微软的平板电脑怎么样啊？
优点：有USB插口，新鲜系统，支持office 不足：3G无线网卡暂时不支持，其他输入法也暂时不支持，还有QQ现在都..小结：软件太少，连EXE的文件都不可以!如果出差用的话持航还算行,如果买来玩的话建议选其他的把，不过明年出PRO版你可以
c语言和c++、c#有什么区别和相同点？
C语言属于一种比较早期的程序设计语言，是面向过程的语言，着重于代码的流程逻辑。它既具有高级语言的特点，又具有汇编语言的特点。它可以作为工作系统设计语言，编写系统应用程序，也可以作为应用程序设计语言，编写不依赖计算机硬件的应用程序。因此，它的
JS编程是什么意思？
计算机专业语言。简单来说，就是编写编定程序，让计算机代码解决某个问题，对某个计算体系规定一定的运算方式，使计算体系按照该计算方式运行，并最终得到相应结果的过程。为了使计算机能够理解人的想法，人类通过某种方式，将需解决的问题的思路、方法和手段
怎么用手机usb共享网络给电脑上网
用手机usb共享网络给电脑上网的办法：1、首先将手机和电脑通过USB手机数据线进行相连接，然后打开手机上的“设置”。2、在弹出的设置页面中，点击“更多连接方式”，进行下一步操作。3、此时将“USB网络共享”后面的开关打开，颜色呈现蓝色为打
javascript中的注释符
&lt!-- --&gt是HTML的注释 ,&lt!-- --&gt这个注释符是根据浏览器是否支持javascript语言来选择注释与否的,这是为了防止那些不支持js运行的浏览器而设置的，假如该浏览器不支持j
介绍几个JS和CSS压缩合并插件
介绍几个JS和CSS压缩合并插件由于添加各种功能的代码和wordpress插件，会导致JS和CSS增多，影响了wordpress博客的加载速度。虽然可以用代码来对JS和CSS进行压缩合并，可是对初学者不是那么简单，很容易出错。因此介绍几个
想用JS做一个使图片变模糊的效果，求教！
看你想要实现的环境了，有一个方法是这样的，可以用CSS实现，在最新的浏览器里支持，如chrome， safari，就是 webkit内核的浏览器里 css 的 blur 可实现，把图片模糊了。如果你是想在ipad上的应该，完全
一行显示3个<li>的CSS怎么写？
1、利用Dreamweaver新建一个html页面。2、在body里面输入代码&ltul&gt&ltli&gt你好&ltli&gt&ltli&gt小鱼&ltl
怎么样正确使用笔记本电脑
在笔记本电脑的使用中，我们很多人对一些惯性的错误操作都抱有很随意的态度，认为对笔记本电脑没有什么影响。其实，如果使用方法不对，就会加快笔记本电脑硬件的损坏速度。下面我将给大家介绍一下正确使用笔记本电脑的方法。正确使用笔记本电脑的方法
如何用CSS来制作这个LOGO
两个半圆，两个矩形，两个斜边关键样式position:absoluteborder-radius,transform: rotate我们简单的将HTML写成这样:&ltdiv id="container"&
js中怎么判断两个字符串是否相等
在javascript判断两个变量值是否相等，可以使用 ==（等同）操作符或者 ===（恒等）操作符&ltbr&gt&ltbr&gt == 操作符&ltbr&gt“等同”操作符，简单判断2个
怎样在from中使用2个CSS
你是说给from标签用两个css还是？？？&ltstyle&gt.test1{}.test2{}&ltstyle&gt&ltfrom class="test1 test2"这样就
电脑怎么关机不更新系统
可以参考以下方法拒绝关机前的更新01 用电源键关机之所以会触发系统自动升级，其实是因为我们关机习惯用开机菜单上的关机命令。因此，只要改用电源键关机，就可以跳过电脑的自动更新了。打开控制面板——电源选项，点击左侧列表中的“选择电源按钮的
如何使用CSS设置背景音乐
使用CSS设置背景音乐，这个对于现在网页设计中，不太适用，一般都是通过html标签来实现，使用那个bgsound标签，用法：&ltbgsound src="..."&gt，src之后加这个音乐的路径，具体
纯css实现旋转的金字塔
css是个神奇的东西，在学习的过程中你会发现绘画和艺术的美,金字塔是世界八大奇迹之一，设计精巧，计算精密，令世人赞叹。那么如何用CSS画一个金字塔呢？人丑话不多，先看一下效果金字塔是由5个面组成的，即4个侧面和1个底面。我们可
网页中弹出在线交流那种对话框怎么做的？
现在很多网页中会自动弹出对话框，邀请框是智能客服营销云平台，快商通我一直在用的，这个功能是很强大的，可以解决网页访客对话开口率低，获联率也比人工高，重点是可以代替人工，让客服有更多时间去接待更加有意向的客户，客服现在的流动性也很高，培养成本
电脑一直蓝屏怎么办
处理电脑经常出现蓝屏问题方法：点击打开360安全卫士，打开它的界面最下方找到“人工服务”，在输入框输入“蓝屏”并进行查找。在查找方案后，在输入框下方即可看到相关的解决方案，点击后面的“立即修复”即可。电脑蓝屏又叫蓝屏死机，是微软的Windo
在java中怎么通过md5和salt来修改密码
MD5很简单，有专门的类，自己定义一个加密用的saltKey。还有自己写简单的加密解密可以用异或算法，一个字符串于某字符异或就加密了，再与这个字符异或又解密了。很简单的算法。不过比较容易破解hash函数是一种单向散列算法，这意味着从明文可以

推荐阅读

热门文章

最新发布

标签列表

如何使用nodejs做爬虫程序

给您推荐相同类型的内容：