最新发布

# 2023-02-17
js的数据类型有哪些
JS数据类型有7种，分别是：3种基本类型（数字，字符串，布尔），2种引用数据类型（对象，数组)，以及2种特殊数据类型（undefined，null）。JavaScript（简称“JS”）是一种具有函数优先的轻量级，解释型或即时编译型的高级编
# 2023-02-17
JS里添加样式
JS里添加样式的方法：1、首先，要创建标签，使用document.createElement函数，如图创建div标签。使用其className设置class，id设置id，style设置样式。2、样式的设置也可以分项进行。如图是分项设置其
# 2023-02-17
JS怎么样使用呢？
1. 在HTML里面加入JavaScript；方法非常简单，就是通过一对标签，然后在标签里面书写代码即可；2. 标签位置；按照以前传统的方法，我们的script标签都是放在head标签里面的。但是由于浏览器进行渲染的时候是由上往下进行渲染，
# 2023-02-17
js全局变量赋值
function test(){s = “sh”全局变量var c = 1局部的整形变量}这样即可为一个全局变量赋值。省略了var操作符，就创建了一个全局变量，如上形式就可以直接进行创建并且赋值。在js中有var操作符的变量
# 2023-02-17
JS常用设计模式（MVC、MVP、MVVM及其他设计模式）
一、MVC MVC模式的意思是，软件可以分成三个部分。视图（View）：用户界面。控制器（Controller）：业务逻辑模型（Model）：数据保存各部分之间的通信方式如下。 View 传送指令到 Cont
# 2023-02-17
js同时测试一组网站的加载时间
js同时测试一组网站的加载时间是60秒，不同测试加载时间不同。js测试的全称是javasprits。在正确的数据下会不会产生错误的结果，在错误的数据下会不会给出正确的提示，会不会崩溃等等，总之就是测试所写的代码有没有问题。jest非常易于使
# 2023-02-17
javascript用什么换行
js中alert弹出窗口换行用"n"如果这个不可以的话就是"\n"比如：&ltscript type="textjavascript"&gtalert(&qu
# 2023-02-17
js防水涂料是什么
js防水涂料是一种以聚丙烯酸酯乳液、乙烯-醋酸乙烯酯共聚乳液等聚合物乳液与各种添加剂组成的有机液料，和水泥、石英砂、轻重质碳酸钙等无机填料及各种添加剂所组成的无机粉料通过合理配比、复合制成的一种双组份、水性建筑防水涂料。具有抗裂性、抗冻性好
# 2023-02-17
js字符串的长度
字符串的最大长度与js中能表达的【最大安全整数】有关系，这是为什么呢 utf-16相关：符号位1 指数为11 位位尾数位52(1+11+52=64) 那应该是2^52-1 才对，但小数点
# 2023-02-17
js中如何获取一个id的值？
只要使用getAttribute("id")函数即可获取li元素的id值，下面我们一起实例操作一下吧首先我们在html当中创建li标签使用JS获取li元素对象，getElementsByTagName("li&

如何使用nodejs做爬虫程序

2023-03-02 12:39:02JavaScript031

如何使用nodejs做爬虫程序,第1张

NodeJS制作爬虫全过程：

1、建立项目craelr-demo

建立一个Express项目，然后将app.js的文件内容全部删除，因为暂时不需要在Web端展示内容。当然我们也可以在空文件夹下直接 npm install express来使用需要的Express功能。

2、目标网站分析

如图，这是CNode首页一部分div标签，就是通过这一系列的id、class来定位需要的信息。

3、使用superagent获取源数据

superagent就是ajax API来使用的Http库，它的使用方法与jQuery差不多，通过它发起get请求，在回调函数中输出结果。

代码如下：

var express = require('express')

var url = require('url')//解析操作url

var superagent = require('superagent')//这三个外部依赖不要忘记npm install

var cheerio = require('cheerio')

var eventproxy = require('eventproxy')

var targetUrl = 'https://cnodejs.org/'

superagent.get(targetUrl)

.end(function (err, res) {

console.log(res)

})

4、使用cheerio解析

cheerio充当服务器端的jQuery功能，先使用它的.load()来载入HTML，再通过CSS selector来筛选元素。

代码如下：

var $ = cheerio.load(res.text)

//通过CSS selector来筛选数据

$('#topic_list .topic_title').each(function (idx, element) {

console.log(element)

})

5、使用eventproxy来并发抓取每个主题的内容

eventproxy就是使用事件(并行)方法来解决这个问题。当所有的抓取完成后，eventproxy接收到事件消息自动帮你调用处理函数。

代码如下：

//第一步：得到一个 eventproxy 的实例

var ep = new eventproxy()

//第二步：定义监听事件的回调函数。

//after方法为重复监听

//params: eventname(String) 事件名,times(Number) 监听次数, callback 回调函数

ep.after('topic_html', topicUrls.length, function(topics){

// topics 是个数组，包含了 40 次 ep.emit('topic_html', pair) 中的那 40 个 pair

//.map

topics = topics.map(function(topicPair){

//use cheerio

var topicUrl = topicPair[0]

var topicHtml = topicPair[1]

var $ = cheerio.load(topicHtml)

return ({

title: $('.topic_full_title').text().trim(),

href: topicUrl,

comment1: $('.reply_content').eq(0).text().trim()

})

})

//outcome

console.log('outcome:')

console.log(topics)

})

//第三步：确定放出事件消息的

topicUrls.forEach(function (topicUrl) {

superagent.get(topicUrl)

.end(function (err, res) {

console.log('fetch ' + topicUrl + ' successful')

ep.emit('topic_html', [topicUrl, res.text])

})

})

6、爬取结果分析

纯粹前端的js 是不能跨域获取 cookie的

xxx.com 的js 代码只能得到 xxx.com的cookie，拿不到 yyy.com

当然如果你有办法在 yyy.com 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyy.com 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyy.com 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：除了联想以外，国产电脑比较好用的还有哪些？

# 下一篇：电脑突然有很多弹幕怎么办