如何使用nodejs做爬虫程序

2023-04-21 14:18:01JavaScript045

如何使用nodejs做爬虫程序,第1张

1）下载nodejs

2）下载JavaScript编辑器webStorm

如果你是个聪明的家伙，你一定能完成这两个安装。如果安装过程中，不幸遇到各种bug，那么请你自行问度娘，安装好了再继续往下看。

安装必要的模块：

Express

基于 Node.js 平台，快速、开放、极简的 web 开发框架。它提供一系列强大的特性，帮助你创建各种 Web 和移动设备应用。

Request

简化HTTP请求的处理,支持OAuth的签名请求,很好很强大。

Cheerio

为服务器特别定制的，快速、灵活、实施的jQuery核心实现，像操作dom一样操作抓取文本。

mysql

node下的mysql数据库连接模块，存储抓取数据。

核心逻辑：

app.get('/', function (req, res, next) {

// 用 superagent 去抓取 https://cnodejs.org/ 的内容

superagent.get('https://cnodejs.org/')

.end(function (err, sres) {

// 常规的错误处理

if (err) {

return next(err)

}

// sres.text 里面存储着网页的 html 内容，将它传给 cheerio.load 之后

// 就可以得到一个实现了 jquery 接口的变量，我们习惯性地将它命名为 `$`

// 剩下就都是 jquery 的内容了

var $ = cheerio.load(sres.text)

var items = []

$('#topic_list .topic_title').each(function (idx, element) {

var $element = $(element)

items.push({

title: $element.attr('title'),

href: $element.attr('href')

})

res.send(items)

})

demo：https://github.com/alsotang/node-lessons/tree/master/lesson3

纯粹前端的js 是不能跨域获取 cookie的

xxx.com 的js 代码只能得到 xxx.com的cookie，拿不到 yyy.com

当然如果你有办法在 yyy.com 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyy.com 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyy.com 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：R语言泊松Poisson回归模型分析案例

# 下一篇：css中给元素设置下内边距为100像素的代码是

给您推荐相同类型的内容：

电脑固定ip地址怎么设置
固定ip地址设置方法如下：1、单击电脑网络连接图标，打开网络和共享中心。2、点击本地连接。3、点击详细信息，即可看到IP地址、子网掩码、默认网关、DNS服务器信息。4、再点击本地连接状态下的属性。5、找到Internet协议版本4（TCP
js date加一天
js date加一天是什么？一起来看看吧：js date加一天是一个轻量的 JavaScript 时间日期处理库。与 Moment.js 的 API 设计保持一致，随着moment的包逐渐变大，官方已经决定未来停止维护相关moment.
JS的回流和重绘
一、首先我们简单了解下浏览器的渲染过程： 1.解析HTML抽象DOM Tree2.抽象出Render Tree 3.布局（layout）render tree 4.绘画render treeHTML解析成DOM，抽象DO
Web前端新手应该知道的CSS长度单位
今天小编要跟大家分享的文章是关于Web前端新手应该知道的CSS长度单位!众所周知CSS技术我们虽然很熟悉，在使用的过程却很容易被困住，这让我们在新问题出现的时候变得很不利。随着web继续不断地发展，对于新技术新解决方案的要求也会不断增长。因
java中如何把图用邻接表表示出来
package my.graphimport java.util.ArrayListimport java.util.Iteratorimport my.queue.*import my.stack.StackX** * 邻接表表示 *
CSS添加背景图片
css代码添加背景图片：1．背景颜色：background-color语法：{background-color:数值}注意：在html当中，要为某个对象加上背景色只有一种办法，那就是先做一个表格，在表格中设置完背景色，再把对象放进单元
DIV css分别如何分页成如下内容？？多谢！
内容分页一般是涉及到数据库的内容，如果楼主不是涉及到数据库，而是单纯的想用div+css实现翻页效果，完全可以通过javascript来实现，当点击上一页，下一页的时候应该做怎么样的操作，比如让原本显示的第一页隐藏，将原本隐藏的页面显示，则
如何注释html、css、js代码
不是每行代号都需要注释，但注释代码量要占10% ~ 20%，以免其他人在检测调试代码的时候，不知道这段代码是什么意思，还得从前面开始理解代码，增加别人的工作量。下面，我们来看看如何注释html、css、js代码吧。html注释的格式
CSS中的运算符是什么意思？
这个是CSS匹配！！^= 以“ X ”开头的!*=包含“ X ”的！$= 以“ X ”结束的！|= 等于“ X ” 或以“ X ”开头的。按位与运算符"&amp"是双目运算du符是参与运算
如何用电脑刻录光盘？
1 电脑安装有刻录光驱（刻碟机）。2、准备一张空白光盘，根据刻录文件的大小选择空白光盘，刻录文件小于700MB用CD光盘，CD空白光盘容量700MB，刻录文件大于700MB小于4.7G，用DVD空白光盘，DVD 空白光盘容量4.7G 。
vue中导入外链css或js
在vue中导入自定义的css文件或js文件 css文件在main.js中导入公共的css import '..staticcsscommon.css'引入公用css 在页面中引入单独css
js解析json字符串报错解决方案（带有转义字符的json字符串）
场景：从后台请求回来的数据中带有json格式的字符串，需要处理成json对象才能进行操作。JSON.parse(): 使用JSON.parse方法来解析json字符串。报错： Uncaught SyntaxE
电脑打不出字解决方法六个步骤教你解决
1、电脑键盘打不出字时，如果你急着要打出字，那么可以先调出软键盘来用一下。2、首先确认下键盘与电脑的连接有没有问题，以及数据线是否受到损坏，再看一下numlock键是否开启，如果没有开启也是无法打字的。3、接下来是说解决电脑键盘打不
怎么查看运行程序?
如何查看电脑后台正在运行的程序快捷键ctrl+alt+del，选择进程和服务两个选项卡查看，可以自己多研究研究这些进程、服务，有些不必要的进程可以结束掉，提高电脑运行效率。怎样查看电脑后台运行的软件通过任务管理器可以查看当前
CSS文本输入框怎么才能改变输入进去的文字大小
&lt!DOCTYPE html PUBLIC "-W3CDTD XHTML 1.0 TransitionalEN" "http:www.w3.orgTRxhtml1DTDxht
双向链表排序c语言程序设计
*************************************************************************文件名doublelnk.h作用定义必要的结构体，并对双向链表的操作函数做
Js要实现一个用户名和密码验证的效果为什么一直都是错误的提示呢
if ($("uname")=="zp" &amp&amp $("pwd")=="1234")如果这个就是你html的所有代码的话，那么你显然
CSS3 选择器nth-child()问题，谢绝抢答，求懂的大神。
nth-child()括号里面的顺序号是指“兄弟姐妹”之间的序号，并不是整个家族不分辈分的序号。在你的代码中，第一个div和第二个div是兄弟关系，它们的序号是1和2，所以它们分别获得了第1个和第2个样式，而3-1和3-2这两个div则是前
css中给元素设置下内边距为100像素的代码是
css中给元素设置下内边距为100像素的代码是：padding-bottom：100px。CSS中的padding属性用于在任何定义的边界内的元素内容周围生成空间。通过CSS，可以完全控制内边距（填充）。有一些属性可以为元素的每一侧（上、右
CSS 鼠标点击穿透Div
CSS 鼠标点击穿透Div 有些时候网页中用到了一些绝对定位的Div，因为需要事先这个Div是隐藏的，但是它所在的位置会遮挡住鼠标点击事件。这个时候可以用CCS3中的pointer-events属性来解决。穿透该层 pointer-
点样利用css令yahoo!blog关闭?
现在给您打上隐藏*首页*的语法先将背景设为纯白色然后隐藏首页所有*可隐藏*的组件 ps-请把网志清单设为标题模式语法－－－－－－ #blog_masshead{height:100pxfont-size:0pxfont-weig
求PSP 用暴走兄弟2
1.PS1游戏下载:http:bbs.duowan.comforumdisplay.php?fid=531&ampfilter=type&amptypeid=301 2.转换工具(PS游戏转换工具PSX2PSPv1
js保留小数位
一、我们首先从经典的“四舍五入”算法讲起 1、四舍五入的情况 2、不四舍五入第一种，先把小数边整数：第二种，当作字符串，使用正则匹配：注意：如果是负数，请先转换为正数再计算，最后转回负数再分享一个经典的解决四
r语言如何返回上一步
Ctrl+Shift+Z返回上一步操作(撤销)Ctrl+Shift+Z，反撤销Ctrl+Shift+C，注释或取消注释当前行代码Ctrl+2，移动光标到控制台Ctrl+LR。R语言是属于GNU系统的一个自由、免费、源代码开放的软件，是一个用
用JS实现计时器功能
脚本说明:第一步:把如下代码加入&lthead&gt区域中&ltSCRIPT language=javascript&gt&lt!--function generate(form){for(var q
js编程中“=”号是等于的意思吗
一个=是赋值，不是等于的意思。两个==才是等于的意思。且两个==是值相等，类型可以不相同。所以，123=="123"的结果是true。而三个===是等同于的意思，除了要值相等，类型也要相同。所以，123===&qu
div+css怎么实现ctrl+d
您就是想写入样式，当点击收藏出现Ctrl+D的效果，这个非常简单亲1. &ltli&gt&ltspan&gt&lta href="#" class="hrefs&qu
怎样用JS获取客户端的硬件，系统等信息（适
JavaScript 获取客户端计算机硬件及系统信息通过WMI来实现获取客户端计算机硬件及系统信息: 复制代码代码如下:function getSysInfo(){ var locator = new ActiveXObject (&qu
前端用js如何实现购物车功能，如图那样的效果
这是需要多个方法才能完成的1，需要动态添加商品那一条显示的function2，个数那个需要一个增加减少的function3，需要个统计总数量的4，需要一个检测checkbox的你做到什么程度了云端Office文档处理软件。同时打开A、B两
夏普电视怎么连接电脑
可以使用夏普电视的音乐播放屏幕连接其他设备进行屏幕播放。需要确保电视和其他设备位于无线局域网中。具体用法如下：1、打开夏普电视，在主界面中用遥控器点击应用按钮。2、页面跳转到应用程序界面后，用遥控器随时拉动界面，可以看到音乐播放画面，并点

推荐阅读

热门文章

最新发布

标签列表

如何使用nodejs做爬虫程序

给您推荐相同类型的内容：