最新发布

# 2023-02-17
js中如何获取一个id的值？
只要使用getAttribute("id")函数即可获取li元素的id值，下面我们一起实例操作一下吧首先我们在html当中创建li标签使用JS获取li元素对象，getElementsByTagName("li&
# 2023-02-17
js防水涂料是什么
js防水涂料是一种以聚丙烯酸酯乳液、乙烯-醋酸乙烯酯共聚乳液等聚合物乳液与各种添加剂组成的有机液料，和水泥、石英砂、轻重质碳酸钙等无机填料及各种添加剂所组成的无机粉料通过合理配比、复合制成的一种双组份、水性建筑防水涂料。具有抗裂性、抗冻性好
# 2023-02-17
js对象有哪些类型，创建js对象的方式
&ltscript type="textjavascript"&gtvar obj = new Object()obj.name = "Koji"为对象添加属性 obj.age
# 2023-02-17
js 如何获取<td>标签的值
$("td")是获取的所有td标签通过循环遍历也可以通过下标获取 $("td").eq(0).text()这是获取下标为0的值也就是第一个td$("td").each(func
# 2023-02-17
js 判断是否为空
一般判断为空有 null值、undefined值与NaN值判断undefined:var tmp = undefinedif (typeof(tmp) == "undefined"){ alert("u
# 2023-02-17
javascript 怎么添加按钮？
借助JQuery更简单实现，这里是一个用原生javascript实现的示例：&lthtml&gt&lthead&gt&lttitle&gt&lttitle&gt&am
# 2023-02-17
eclipse中js代码如何设置可折叠？
js代码设置可折叠设置：设置代码折叠在菜单栏的窗口--&gt首选项1、选择常规--&gt编辑器--&gtstructure text editors，可以看到Enable folding选项，打上勾就可以使用代码折叠
# 2023-02-17
eclipse中js代码如何设置可折叠？
js代码设置可折叠设置：设置代码折叠在菜单栏的窗口--&gt首选项1、选择常规--&gt编辑器--&gtstructure text editors，可以看到Enable folding选项，打上勾就可以使用代码折叠
# 2023-02-17
JS有哪几种传参方式
大家好，我是IT修真院成都分院第5期的学员，一枚正直纯洁善良的web程序员一.背景介绍：在“单机”模式下，只需要使用其本身所建立的变量即可。显然，在如今的前端环境，一个稍微正式点的项目都不太可能是这个情况，页面的跨越、服务器后台进行数
# 2023-02-17
js正则匹配总结
js匹配是js中比较重要的一个概念，我们在工作中经常用到，但是往往都是记得不是很清楚，或者有些遗忘，这次记录总结一下，让自己加深一下印象，同时也会小伙伴们提供查阅资料的地方正则匹配模式分为两种，一种是贪婪模式，另一种是非贪婪模式

前端js爬虫？

2023-04-10 12:45:01JavaScript044

前端js爬虫？,第1张

纯粹前端的js 是不能跨域获取 cookie的

xxx.com 的js 代码只能得到 xxx.com的cookie，拿不到 yyy.com

当然如果你有办法在 yyy.com 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyy.com 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyy.com 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

《使用 superagent 与 cheerio 完成简单爬虫》

目标

建立一个 lesson3 项目，在其中编写代码。

当在浏览器中访问 http://localhost:3000/ 时，输出 CNode(https://cnodejs.org/ ) 社区首页的所有帖子标题和链接，以 json 的形式。

输出示例：

[

{

"title": "【公告】发招聘帖的同学留意一下这里",

"href": "http://cnodejs.org/topic/541ed2d05e28155f24676a12"

},

{

"title": "发布一款 Sublime Text 下的 JavaScript 语法高亮插件",

"href": "http://cnodejs.org/topic/54207e2efffeb6de3d61f68f"

}

]

挑战

访问 http://localhost:3000/ 时，输出包括主题的作者，

示例：

[

{

"title": "【公告】发招聘帖的同学留意一下这里",

"href": "http://cnodejs.org/topic/541ed2d05e28155f24676a12",

"author": "alsotang"

},

{

"title": "发布一款 Sublime Text 下的 JavaScript 语法高亮插件",

"href": "http://cnodejs.org/topic/54207e2efffeb6de3d61f68f",

"author": "otheruser"

}

]

知识点

学习使用 superagent 抓取网页

学习使用 cheerio 分析网页

课程内容

Node.js 总是吹牛逼说自己异步特性多么多么厉害，但是对于初学者来说，要找一个能好好利用异步的场景不容易。我想来想去，爬虫的场景就比较适合，没事就异步并发地爬几个网站玩玩。

本来想教大家怎么爬 github 的 api 的，但是 github 有 rate limit 的限制，所以只好牺牲一下 CNode 社区（国内最专业的 Node.js 开源技术社区），教大家怎么去爬它了。

我们这回需要用到三个依赖，分别是 express，superagent 和 cheerio。

先介绍一下，

superagent(http://visionmedia.github.io/superagent/ ) 是个 http 方面的库，可以发起 get 或 post 请求。

cheerio(https://github.com/cheeriojs/cheerio ) 大家可以理解成一个 Node.js 版的 jquery，用来从网页中以 css selector 取数据，使用方式跟 jquery 一样一样的。

还记得我们怎么新建一个项目吗？

新建一个文件夹，进去之后 npm init

安装依赖 npm install --save PACKAGE_NAME

写应用逻辑

我们应用的核心逻辑长这样

app.get('/', function (req, res, next) {

// 用 superagent 去抓取 https://cnodejs.org/ 的内容

superagent.get('https://cnodejs.org/')

.end(function (err, sres) {

// 常规的错误处理

if (err) {

return next(err)

}

// sres.text 里面存储着网页的 html 内容，将它传给 cheerio.load 之后

// 就可以得到一个实现了 jquery 接口的变量，我们习惯性地将它命名为 `$`

// 剩下就都是 jquery 的内容了

var $ = cheerio.load(sres.text)

var items = []

$('#topic_list .topic_title').each(function (idx, element) {

var $element = $(element)

items.push({

title: $element.attr('title'),

href: $element.attr('href')

})

})

res.send(items)

})

})

OK，一个简单的爬虫就是这么简单。这里我们还没有利用到 Node.js 的异步并发特性。不过下两章内容都是关于异步控制的。

记得好好看看 superagent 的 API，它把链式调用的风格玩到了极致。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：js中数组合并

# 下一篇：html js 或者css怎么做到隐藏滚动条，但是依旧可以滚动？