爬虫是不是用 Node.js 更好？

2023-03-04 08:50:02JavaScript026

爬虫是不是用 Node.js 更好？,第1张

‍‍

Node.js当然适合做爬虫，当然Python同样也适合。你所遭遇的问题充其量只是个程序逻辑问题，而不是语言问题。Nodejs做爬虫最大的优势大概在于更容易接入诸如下类的phantomjs/casperjs来搞一些更自动化的针对动态加载内容的爬取（当然Python也行，只不过没那么原生）。单纯只是爬个数据，解析一下DOM，无论Php还是Java还是C++还是C#甚至是VBS都一样能玩得顺溜，代码量也不见得就会特别大。目前，Python做爬虫更多一些，一方面可能是因为诸如Scrapy这样的总体分布框架更加完善而久经考验，而另一方面，爬下来的数据若不是自己做玩具，更多的情况下还需要做清洗、分析等相关工作，而不是闭眼存文件/数据库。这些数据处理相关环节中，Python的生态要比Node好太多。从头写一个原始的爬虫，Node.js 确实很方便，不过其它语言驱动浏览器也没复杂到哪里。写一个能工程实用的，比的其实是现有工具的成熟度，目前 Crawler 虽然已经很像 Scrapy 了，上手很快，但还是需要自己找个 cheerio 之类的来分析 dom，Scrapy 则是全集成的，当然 Crawler 也可随便换熟悉的 dom 处理框架也算一个好处啦。而搞一个24x7运行的分布式爬虫系统，Scrapy 成熟度强的就不是一星半点儿logging/stats/telnet/email什么的都标配了，节点任务分配、调度都现成的，相信假以时日，总会有人拿 Node.js 搞出一套同样强大的。简单的爬虫用啥都能写，python和js区别很小，选个自己喜欢的足够熟练的即可。复杂的爬虫语言不是关键问题，架构做大了之后也不是一种语言能很好解决的。

‍‍

纯粹前端的js 是不能跨域获取 cookie的

xxx.com 的js 代码只能得到 xxx.com的cookie，拿不到 yyy.com

当然如果你有办法在 yyy.com 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyy.com 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyy.com 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：如何入侵局域网电脑

# 下一篇：买联想电脑时附带的两张光盘时干什么用的，下面是详细内容

给您推荐相同类型的内容：

电脑怎么设wifi密码
用电脑、手机与路由器通过有线、无线连接均可。将电脑或者手机正确连接到WiFi之后，打开手机浏览器，在地址栏中输入192.168.0.1即可登录路由器界面，正确在输入框中输入管理名和管理密码即可登录到路由器的管理页面。具体介绍如下：1、确认电
HTML模版
1、ASP文件中的代码pencat=rs.Fields.Item("m_content").Value pencat=replace(pencat,"t_title",n_title)pencat=r
电脑中EDL 是什么东西???
电子差速锁（EDSEDL）：EDS的英文全称为Electronic Differential System，又称为EDL(Electronic Differential Locking Traction Control)，它是ABS的一种
html5如何让图片3d旋转
1、首先打开html文件编辑器，这里使用vscode新建一个html文档，文档中写入基本的html结构，然后插入img标签并插入一张图片，给img一个class属性：2、然后在上方的head标签中的style标签设置样式，这里设置图片的宽度
python 图片读取常用操作方法
批量获取图片： keras 多张图片：很多情况下，你并不能使用以上这些方法来直接输入数据去训练或者预测，原因是你的数据集太大了，没办法把所有的图片都载入到内存当中。那keras的data generator就派上用场了，当你的模型
在html文件中引入jsp页面，有什么解决方案吗？
jsp对于js的加载时有顺序的，后加载会覆盖前加载。函数调用的时候不是在调用js文件，是调用加载后的函数。如果说出现了不兼容一版情况是后加载的js函数将前面加载的js函数覆盖了，每次执行均会报错，与调用速度没关系。解决方法是调整js文件加载
js常见编码解码
将每一个字节表示的十六进制表示的内容,用字符串来显示。 UTF(UCS Transformation Format)规范,常见的UTF规范包括UTF-8、UTF-7、UTF-16 使用2个字节表示已经有码点的字符。UCS-2只是一
电脑是什么?
电脑，即电子计算机具有自动和快速地进行大量计算机和数据处理功能的电子设备。分为数字电子计算机、模拟电子计算机和混合电子计算机三大类。20世纪末社会上广泛使用的是数字电子计算机。它既能用来进行数字运算和存贮，又能处理各种数据。数据是表示一定意
什么是平板电脑？
平板电脑（Tablet PersonalComputer，便携式电脑）是一种小型、方便携带的个人电脑，以触摸屏作为基本的输入设备。 GRiD Systems公司于1989年9月成功制造第一台商业化平板电脑，并命名为GRiD Pad，而真正意
新机跳过联网后怎么激活
新机跳过联网后，需要输入指令激活。1、首先我们需要打开电脑，打开浏览器，找到联网激活。然后在联网激活页面，按下快捷键Shift加F10，或者Shift加Fn加F10。2、做好上述步骤后，在命令提示符中输入命令“taskmgr”，然后按下En
求告知可以用电脑给小米充电宝充电吗
小米手机的充电器，完全可以给小米移动电源充电使用的。小米移动电源标配只配备了一根很短的数据线，并没有配置充电头，只能连接电脑USB充电。用户可以使用小米手机的充电头数据线，连接到小米移动电源进行充电。而且相比USB充电，使用充电器充电，会减
1. css和div 开发的优势? 2. 谈谈页面间的参数传递有哪些方式 ?
1. css和div 开发的优势?第一、利于搜索引擎蜘蛛爬行根据总结和经验，div+css布局有利于蜘蛛的爬行，拿html的table布局和div+css布局的网页来做对比，很显然table的字节大于div+css的，字节小就有益于搜索引擎
两台笔记本如何打开和关闭共享文件?
你们俩得在同一个网段比如你是192。168。1。11他就必须是192。168。1。X然后防火墙要关闭最后做到在运行中你用PING命令格式如下 ping 192.168.1.X如果PING通那就OK了然后再点击要共享的文件就行
有没有可以用javascript做类似ACM算法题的平台或渠道，最好是国内的
国内的基本都不支持js，推荐几个国外的吧：https:leetcode.comproblemsetalgorithms （五星推荐）http:codeforces.comhttp:hackerrank.comhttp:
data文件是什么意思
就像电脑一样记录一些每天的程序日志或者存档什么的一般情况下temp和cache date中installs可以删除systemdata目录里存放着很多ini,dat,cdr等文件,它们都是程序所保存设置的数据文件,请不要随意删除和修改它们
HTML语言中换行的代码是什么？
您好，HTML语言中换行的代码是&ltbr&gt或&ltp&gt&ltp&gt。1、HTML换行的代码是&ltbr&gt，想要在哪一行换行，在那一行的代码后输入&l
电脑桌面背景黑色怎么办
1. 电脑桌面壁纸全都是黑色的怎么回事一般电脑桌面变成纯黑色的屏幕的原因和解决方法如下：1、微软系统对盗版的识别，一旦识别出盗版软件就会把桌面变成黑色。2、原管理员帐号不能更换壁纸，只能使用纯色壁纸。新建了一个管理帐号注销登录
如何制作淘宝详情页?
怎样制作淘宝详情页 10分亲，这个要用到二个软件，一个是PS ，另一个是DW。制作过程大致是这样的。首先在PS中建一个宽度为750PX，长度任意的文件，将宝贝详情图片和文字添加进去，然后，用切片工具，保存为WEB所用格式，同时保存图
魅族手机怎么连接电脑
连接方法如下：1.首先在魅族手机的首页，找到设置菜单，进入之后，找到存储与备份；2.在存储与备份界面的最底端有USB计算机连接，点击进入；3.进入之后，根据自己的实际情况，选择连接模式，一般选择媒体设备（MTP）格式进行连接；4.然后在百
js的内部对象
在JavaScript中对于对象属性与方法的引用，有两种情况：其一是说该对象是静态对象，即在引用该对象的属性或方法时不需要为它创建实例；而另一种对象则在引用它的对象或方法是必须为它创建一个实例，即该对象是动态对象。对JavaScript内部
编程用的笔记本电脑推荐
适合程序员编程用的笔记本电脑首先应该满足小巧轻便这个需求，然后才是性能因素，一个标准的程序员必定能够随时随地改BUG，所以可以优先考虑苹果MacBook Pro，由于其 MacOS 就是Linux内核，做开发无疑是最佳的选择。当然还有非常多
HTML和CSS的区别是什么？语法上有区别吗
1、定义不同：html是HyperTextMark－upLanguage的缩写，即超文本标记语言；css是CascadingStyleSheets的缩写，即层叠式样式表单，它是由W3C协会制定并发布的一个网页排版式标准，是对HTML语言功能
怎么查看电脑电源品牌?
电脑电源品牌怎么查看台式机的电源品牌，必须打开外面的盖子才能看到，里面有铭牌，笔记本的电源是看电源适配器上的铭牌，上面会标出生产商和品牌，输出怎么看自己的电脑电源的品牌？电脑电源品牌的查看方法：台式机的电源品牌，必须打开外
js树形结构如何从最深层往上匹配
一、树结构定义一颗树，JS中常见的树形数据结构如下，children属性对应的是子树let tree = [{id: '1',name: '节点1',children: [{id: '
电脑有什么好玩的游戏?
电脑有很多好玩的游戏。电脑上好玩的游戏分为单机和网游。单机类型就有以下游戏：《使命召唤系列》《孤岛危机三部曲》《虐杀原形1和2》《丧尸围城系列》《耻辱》《刺客信条系列》《杀手5之赦免》《生化危机系列》《无主之地1和2》
配置一台电脑需要什么
问题一：配一台电脑的配置需要注意什么一，哪个牌子和哪个牌子一起都可以。二，一个主板型号，要看它支持什么，才知道和哪个型号CPU一起。其它注意事项：组装电脑注意： 1、适合自己用就行，别盲目追求高配置，追求多核数CPU，根据自己应用
在HTML文件中，版权符号的代码是 _ __。
Copyright &ampcopy。html文件是被很多种网页浏览者识别和读取，并且传递各种资讯的一种文件，利用互联网传输协议，把HTML提供的页面结构，传输给用户，用户可以获取html文件所传达的信息。一个网页可以对应很多个
电脑复制是哪个键
复制快捷键：ctrl+c，粘贴快捷键：ctrl+v，具体操作如下：操作设备：戴尔笔记本电脑操作系统：win10操作程序：文档2.011、首先打开一个文档，如下图所示：2、快捷键ctrl+c即可复制目标文字，如下图所示：3、使用快捷键
钢琴谱用什么平板好，用什么APP好
买个ipad，屏幕12.9寸，下载pdf文件的钢琴谱，存储在ibook文档，弹琴时看谱弹奏。大屏的ipad图片跟A4纸张一样，看起来舒服。再买一个蓝牙乐谱翻页脚踏板支持ios，价格在300左右。网页链接汗，问的问题还真是罕见，第一次听人说拿
电脑上按什么键是刷新
刷新按F5键。绝大多数电脑，无论是网页、文件夹还是桌面刷新都可以按F5一个按键。有些笔记本电脑，由于按键功能服用，F5作为第二功能刻印在按键的左上角，单按该不能直接不能实现F5的功能，需要先按住Fn，然后再按该键实现F5的刷新功能。扩展资

推荐阅读

热门文章

最新发布

标签列表

爬虫是不是用 Node.js 更好？

给您推荐相同类型的内容：