爬虫是不是用 Node.js 更好？

2023-04-18 15:19:21JavaScript030

爬虫是不是用 Node.js 更好？,第1张

‍‍

Node.js当然适合做爬虫，当然Python同样也适合。你所遭遇的问题充其量只是个程序逻辑问题，而不是语言问题。Nodejs做爬虫最大的优势大概在于更容易接入诸如下类的phantomjs/casperjs来搞一些更自动化的针对动态加载内容的爬取（当然Python也行，只不过没那么原生）。单纯只是爬个数据，解析一下DOM，无论Php还是Java还是C++还是C#甚至是VBS都一样能玩得顺溜，代码量也不见得就会特别大。目前，Python做爬虫更多一些，一方面可能是因为诸如Scrapy这样的总体分布框架更加完善而久经考验，而另一方面，爬下来的数据若不是自己做玩具，更多的情况下还需要做清洗、分析等相关工作，而不是闭眼存文件/数据库。这些数据处理相关环节中，Python的生态要比Node好太多。从头写一个原始的爬虫，Node.js 确实很方便，不过其它语言驱动浏览器也没复杂到哪里。写一个能工程实用的，比的其实是现有工具的成熟度，目前 Crawler 虽然已经很像 Scrapy 了，上手很快，但还是需要自己找个 cheerio 之类的来分析 dom，Scrapy 则是全集成的，当然 Crawler 也可随便换熟悉的 dom 处理框架也算一个好处啦。而搞一个24x7运行的分布式爬虫系统，Scrapy 成熟度强的就不是一星半点儿logging/stats/telnet/email什么的都标配了，节点任务分配、调度都现成的，相信假以时日，总会有人拿 Node.js 搞出一套同样强大的。简单的爬虫用啥都能写，python和js区别很小，选个自己喜欢的足够熟练的即可。复杂的爬虫语言不是关键问题，架构做大了之后也不是一种语言能很好解决的。

‍‍

不是爬不到

是因为用js生成的网页，是通过浏览器加载js代码之后，由js动态生成的。

用爬虫直接去抓网页的话，抓下来的是原始代码，浏览器还未解析过的内容。

纯 html 的话，抓下来可以直接拿来用，但是如果是由 js 动态生成的网页的话，就没办法直接用了。

像通过js动态加载的网页，理论上如果能用开源的浏览器内核将网页解析出来的话，通过浏览器内核提供的接口，完全可以把网页最终的 html 拿出来

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：爱心代码用什么软件

# 下一篇：以太坊如何使用web3.js或者rpc接口获取交易数据交易时间与确认数？

给您推荐相同类型的内容：

微信小程序：登录自动弹出用户授权
备注：已不能这样使用了，缅怀一下小程序启动时，不是先运行app.js然后再调用index.js，而是异步执行的。邀请好友答题，好友第一次进来要进行微信登录 --&gt获取access-token --&g
飚车世界波塞冬用什么CSS好？谢谢了，大神帮忙啊
波塞冬点卡马达，S-EX2涡轮，S风速八小件，EX2车身有钱就用UC2驾驶，没钱就用UC1驾驶，方向用加几看个人习惯，轮胎用点卡0.22（去市场收一个，也不贵），前0.15轮壳（绝对不要用前后0.15的），CCS用T2型要单机游戏啊，我给
如何查询自己电脑的IP地址和DNS服务器地址？
具体操作方法如下：1、首先按下键盘上的“Win”+“R”键。2、在弹窗中输入“cmd”后点击“确定”。3、在下图红框内开始编辑。4、输入“ipconfigall”后按回车键。5、随后将会弹出大批字符，标注各处的dns及IP服务地址。6、
javascript怎么禁用浏览器后退按钮
&ltscript language="JavaScript"&gt javascript:window.history.forward(1) &ltscript&gt利用JS产生一个“
css怎么控制table单双行
css控制table单双行的方法是获取到行号。&ltstyle type="textcss"&gt#tb tr { background-color: expression( this.
jq刷新页面会定时器会清除么
JS定时器有两种，分别是setTimeout和setInterval，区别是前者是一次执行，后者是循环执行，具体什么意思呢，直接看代码。指定时间为6000毫秒，即6s，到达6s后，执行一次，之后不再执行。setTimeout(funct
弹出无障碍js代码
最基本的弹出窗口代码】其实代码非常简单: &ltscript language="javascript"&gt&lt!-- window.open ('page.html')
css中，绝对定位和相对定位是什么意思？通常都是怎么用？
1、新建一个html文件输入两个div标签，接着使用style属性，分别给div设置为绝对定位absolute和相对定位relative，让他们其中全部向左移动20px，向上移动30px的距离：2、然后保存文件打开浏览器看看效果，位置显示还
CSS 裸奔日是几月几日
CSS 裸奔日是每年的4月9日。CSS裸奔节就是将这整站的css样式都去掉，这样所有的布局，颜色，背景什么的就都没有了(除非你使用table布局)，只剩下html实体显示出来，起源好像是比较无聊的想法，就是剥去css的外衣，让大家看看你的(
怎么查看电脑显示器尺寸是多大的？
1、以win10系统为例，返回电脑桌面，打开“腾讯电脑管家”应用；2、接下来，在管家界面选择左下角的“工具箱”选项；3、接下来，在工具箱界面选择“硬件检测”选项；4、接下来，在硬件检测界面选择“硬件概况”选项；5、接下来，在硬件概况界面左侧
电脑蓝屏怎么一键修复
电脑蓝屏重启电脑按F8即可一键修复。重启电脑按住F8，选择“修复计算机”，选择“启动修复”，这时候就可以检测系统问题以及修复电脑了，不能直接修复也会给出解决方案，点击完成，系统修复完成重启正常。也可以同时按下win+R键，打开运行对话框，输
css中溢出有什么用？帮忙举一个例子我看出效果
溢出就是你设置的样式表现出来的东西超出了你的本意，比如一个盒子里面的内容本来应该包含在盒子里面，但是它不小心超出了范围，从盒子里面延伸出去了，破坏了页面的美观，所以用溢出隐藏把多余的部分隐藏掉。css代码：.box {width:200px
电脑游戏手柄怎么用？
游戏手柄怎么用游戏手柄应用介绍：首先将游戏手柄接入到主机或者笔记本电脑上，通过游戏手柄的USB接口接入，接入后点击菜单键，找到设备和打印机那一栏，此步骤你也可以通过控制面板直接找到。打开设备和打印机，之后你会找到一个游戏手柄的图标，选择这个
js中怎么获取当前年份、月份和日期
JS有自带的日期函数，获取如下：var date = new Date()var year = date.getFullYear()获取年份var month = date.getMonth()+1获取月份，因为是从0-11所以要+
用div+css如何让字靠右对齐
可以用“text-align:right”让文字靠右对齐。1、新建html文档，在body标签中添加div标签，为div设置一个id，这里以“demo”为例：2、在div标签中添加文字，然后为div标签设置宽高和边框，这时默认情况下文字靠
VSCode调试vue项目
先决条件你必须安装好 Chrome 和 VS Code。同时请确保自己在 VS Code 中安装了 Debugger for Chrome 扩展的最新版本。在可以从 VS Code 调试你的 Vue 组件之前，
课程设计：使用JavaScript制作一个网页上的贪吃蛇游戏
&lthtml&gt &lthead&gt &lttitle&gt贪吃蛇 Snake v2.4&lttitle&gt &ltstyle&gt body{f
css如何注释？
CSS规则是使用*需要注释的内容*进行注释的，即在需要注释的内容前使用“*”标记开始注释，在内容的结尾使用“*”结束。注释可以多行内容注释。其注释范围在“*”与“*”之间。下面通过一个示例来演示注释的使用：x0dx0a.he
以太坊如何使用web3.js或者rpc接口获取交易数据交易时间与确认数？
如果要查询主网上的交易记录，可以使用etherscan。但是，如果是你自己搭建的私链，应该如何查询交易记录呢？答案是你需要自己监听链上的日志，存到数据库里，然后在这个数据库中查询。例如：var addr = "0xbfb2e2
智能电视Js优品娱乐包35元续包月支付方式宽带托收什么意思
意思就是这个费用在你的宽带费用一起扣除。在国内，各大彩电巨头也早已经开始了对智能电视的探索。另外智能电视盒生产厂家也紧随其后，以电视盒搭载安卓系统的方式来实现电视智能化提升。智能电视是指像智能手机一样，具有全开放式平台，搭载了操作系统，可以
电脑显示器怎么样拆开
你们知道怎么拆开电脑显示器吗，下面是我带来的关于电脑显示器怎么样拆开的内容，欢迎阅读!电脑显示器拆开方法一：把液晶显器放平，再拿双手扣住液晶的外框，用力往上扣，扣松。扣开以后，再扣另一个角，扣松，不要着
有没有可以禁止鼠标点选文字的CSS？
1、启动DW网页编辑器，新建一个html网页。2、在body中插入一个div【&ltdiv&gt&ltdiv&gt】,并在head中引入CSS【&ltstyle type="textcs
在JS中如何把字符串转成数字
在js里面用parseInt就行var num1 = parseInt("1")var num2 = Number("2")或者也有 parseFloat()parseDouble()js提供了
在css中给块级元素加背景图片，页面不显示？求答案
应该是这种情况吧，你定义的div有给出固定的宽度和高度没，要这2者都给出来；这是div里面没东西的时候，这样才能显示背景图片；一般原因有下：1，css没有被调用2，css图片地址不对3，div的高度没有固定，是auto或者没有设值4，div
请问一个网页有两套CSS风格点击按纽就能变化风格
有2种方式，一种是前台的，一种是后台的前台的：做2个超链接，写上对应的事件，根据对应的时间，用js来改写&ltlink rel="stylesheet" type="textcss" med
python Ctypes 重写C接口的问题
&gt&gt&gt from ctypes import *&gt&gt&gt ppvoid=POINTER(c_void_p)&gt&gt&gt ppvoid&
请问下C语言中的结构体有什么用？
【结构体作用】结构体和其他类型基础数据类型一样，例如int类型，char类型只不过结构体可以做成你想要的数据类型。以方便日后的使用。在实际项目中，结构体是大量存在的。研发人员常使用结构体来封装一些属性来组成新的类型。结构体在函数中的作用不是
那些能改变chrome外观的插件有哪些
Stylebot 为网页外观调整提供了基本和高级编辑模式。在浏览器中安装该扩展以后，Chrome 的地址栏会显示新的 CSS 图标。点击即可在侧边浮层显示基本编辑器。接下来就可以选择页面中的元素进行修改或移除操作了。通过菜单可以对网页的文字
胜利极速10 12怎么选
胜利极速10，12应该选择胜利极速10。平衡点适中，杆硬且弹，新型的流体破风框，挥速极快。是胜利最经典的系列之一。之所以说极速系列经典，是因为这个系列里面除了很多最，比如颜值最高的球拍，极速12F，不过极速10甚至比极速12更好。胜利极速1
平板电脑如何下载东西
当然可以。你也可以像我们电脑的Windows系统一样，直接在平板电脑的互联网浏览器中搜索下载相关网页，只不过如果你是Android系统，下载的安装文件一般都是。APK档案。这类软件，比如360助手，91，或者豆瓣，就好比我们电脑Window

推荐阅读

热门文章

最新发布

标签列表

爬虫是不是用 Node.js 更好？

给您推荐相同类型的内容：