最新发布

# 2023-02-17
js全局变量赋值
function test(){s = “sh”全局变量var c = 1局部的整形变量}这样即可为一个全局变量赋值。省略了var操作符，就创建了一个全局变量，如上形式就可以直接进行创建并且赋值。在js中有var操作符的变量
# 2023-02-17
JS函数的参数如何设置
1.php有个很方便的用法是在定义函数时可以直接给参数设默认值，如：&ltbr&gt&ltbr&gtfunction simue ($a=1,$b=2){&ltbr&gt return $a+
# 2023-02-17
javascript 点击按钮触发事件
使用onclick（）点击事件触发。1、设计一个功能页面，HTML代码如下。2、此时的页面展示效果如下。3、设计功能函数，实现上图中赋值的功能。4、给按钮绑定上述函数，点击实现。5、在页面上点击函数，查看执行效果。扩展资料：onclic
# 2023-02-17
JS怎么样使用呢？
1. 在HTML里面加入JavaScript；方法非常简单，就是通过一对标签，然后在标签里面书写代码即可；2. 标签位置；按照以前传统的方法，我们的script标签都是放在head标签里面的。但是由于浏览器进行渲染的时候是由上往下进行渲染，
# 2023-02-17
js 判断是否为空
一般判断为空有 null值、undefined值与NaN值判断undefined:var tmp = undefinedif (typeof(tmp) == "undefined"){ alert("u
# 2023-02-17
js刷新框架子页面的七种方法
下面以三个页面分别命名为l l l为例来具体说明如何做其中l由上下两个页面组成代码如下 &lt!DOCTYPE HTML PUBLIC W CDTD HTML TransitionalEN &gt&
# 2023-02-17
js执行顺序
1、注意执行的异步和同步。2、从你的描述来看setSearchCompleteCallBack这个函数执行是一个异步过程，也就是不用等函数执行完，就接着往下执行。3、所以先alert(coordinate)4、但实际执行过程还是1）、sea
# 2023-02-17
js的数据类型有哪些
JS数据类型有7种，分别是：3种基本类型（数字，字符串，布尔），2种引用数据类型（对象，数组)，以及2种特殊数据类型（undefined，null）。JavaScript（简称“JS”）是一种具有函数优先的轻量级，解释型或即时编译型的高级编
# 2023-02-17
js 如何获取<td>标签的值
$("td")是获取的所有td标签通过循环遍历也可以通过下标获取 $("td").eq(0).text()这是获取下标为0的值也就是第一个td$("td").each(func
# 2023-02-17
javascript 怎么添加按钮？
借助JQuery更简单实现，这里是一个用原生javascript实现的示例：&lthtml&gt&lthead&gt&lttitle&gt&lttitle&gt&am

如何使用nodejs做爬虫程序

2023-04-24 15:39:01JavaScript034

如何使用nodejs做爬虫程序,第1张

《使用 superagent 与 cheerio 完成简单爬虫》

目标

建立一个 lesson3 项目，在其中编写代码。

当在浏览器中访问 http://localhost:3000/ 时，输出 CNode(https://cnodejs.org/ ) 社区首页的所有帖子标题和链接，以 json 的形式。

输出示例：

[

{

"title": "【公告】发招聘帖的同学留意一下这里",

"href": "http://cnodejs.org/topic/541ed2d05e28155f24676a12"

},

{

"title": "发布一款 Sublime Text 下的 JavaScript 语法高亮插件",

"href": "http://cnodejs.org/topic/54207e2efffeb6de3d61f68f"

}

]

挑战

访问 http://localhost:3000/ 时，输出包括主题的作者，

示例：

[

{

"title": "【公告】发招聘帖的同学留意一下这里",

"href": "http://cnodejs.org/topic/541ed2d05e28155f24676a12",

"author": "alsotang"

},

{

"title": "发布一款 Sublime Text 下的 JavaScript 语法高亮插件",

"href": "http://cnodejs.org/topic/54207e2efffeb6de3d61f68f",

"author": "otheruser"

}

]

知识点

学习使用 superagent 抓取网页

学习使用 cheerio 分析网页

课程内容

Node.js 总是吹牛逼说自己异步特性多么多么厉害，但是对于初学者来说，要找一个能好好利用异步的场景不容易。我想来想去，爬虫的场景就比较适合，没事就异步并发地爬几个网站玩玩。

本来想教大家怎么爬 github 的 api 的，但是 github 有 rate limit 的限制，所以只好牺牲一下 CNode 社区（国内最专业的 Node.js 开源技术社区），教大家怎么去爬它了。

我们这回需要用到三个依赖，分别是 express，superagent 和 cheerio。

先介绍一下，

superagent(http://visionmedia.github.io/superagent/ ) 是个 http 方面的库，可以发起 get 或 post 请求。

cheerio(https://github.com/cheeriojs/cheerio ) 大家可以理解成一个 Node.js 版的 jquery，用来从网页中以 css selector 取数据，使用方式跟 jquery 一样一样的。

还记得我们怎么新建一个项目吗？

新建一个文件夹，进去之后 npm init

安装依赖 npm install --save PACKAGE_NAME

写应用逻辑

我们应用的核心逻辑长这样

app.get('/', function (req, res, next) {

// 用 superagent 去抓取 https://cnodejs.org/ 的内容

superagent.get('https://cnodejs.org/')

.end(function (err, sres) {

// 常规的错误处理

if (err) {

return next(err)

}

// sres.text 里面存储着网页的 html 内容，将它传给 cheerio.load 之后

// 就可以得到一个实现了 jquery 接口的变量，我们习惯性地将它命名为 `$`

// 剩下就都是 jquery 的内容了

var $ = cheerio.load(sres.text)

var items = []

$('#topic_list .topic_title').each(function (idx, element) {

var $element = $(element)

items.push({

title: $element.attr('title'),

href: $element.attr('href')

})

})

res.send(items)

})

})

OK，一个简单的爬虫就是这么简单。这里我们还没有利用到 Node.js 的异步并发特性。不过下两章内容都是关于异步控制的。

记得好好看看 superagent 的 API，它把链式调用的风格玩到了极致。

纯粹前端的js 是不能跨域获取 cookie的

xxx.com 的js 代码只能得到 xxx.com的cookie，拿不到 yyy.com

当然如果你有办法在 yyy.com 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyy.com 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyy.com 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：淘宝如何用css

# 下一篇：js中数组去重方法总结