怎样使用scrapy爬取js动态生成的数据

2023-05-01 03:13:01JavaScript0156

怎样使用scrapy爬取js动态生成的数据,第1张

解决方案：

利用第三方中间件来提供JS渲染服务： scrapy-splash 等。

利用webkit或者基于webkit库

Splash是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器，Splash是用Python实现的，同时使用Twisted和QT。Twisted（QT）用来让服务具有异步处理能力，以发挥webkit的并发能力。

下面就来讲一下如何使用scrapy-splash：

利用pip安装scrapy-splash库：

$ pip install scrapy-splash

scrapy-splash使用的是Splash HTTP API，所以需要一个splash instance，一般采用docker运行splash，所以需要安装docker。

安装docker, 安装好后运行docker。

拉取镜像(pull the image)：

$ docker pull scrapinghub/splash

用docker运行scrapinghub/splash：

$ docker run -p 8050:8050 scrapinghub/splash

配置splash服务（以下操作全部在settings.py）：

1）添加splash服务器地址：

SPLASH_URL = 'http //localhost:8050'

2）将splash middleware添加到DOWNLOADER_MIDDLEWARE中：

DOWNLOADER_MIDDLEWARES = {

'scrapy_splash.SplashCookiesMiddleware': 723,

'scrapy_splash.SplashMiddleware': 725,

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,

}

3)Enable SplashDeduplicateArgsMiddleware:

SPIDER_MIDDLEWARES = {

'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,

}

4)Set a custom DUPEFILTER_CLASS:

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

5)a custom cache storage backend:

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

例子

获取HTML内容：

import scrapy

from scrapy_splash import SplashRequest

class MySpider(scrapy.Spider):

start_urls = ["http //example com", "http //example com/foo"]

def start_requests(self):

for url in self.start_urls:

yield SplashRequest(url, self.parse, args={'wait': 0.5})

def parse(self, response):

# response.body is a result of render.html callit

# contains HTML processed by a browser.

# ...

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

太简单了，先清空网页缓存文件夹，windows XP默认： C:\Documents and Settings\Administrator\Local Settings\Temporary Internet Files 然后，用IE浏览器打开你要的网站，再回去看看，什么HTML JS CSS flash 图片都在里面了，你copy所有的东西...

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：如何利用python语言实现机器学习算法

# 下一篇：请问什么是LPC

给您推荐相同类型的内容：

Java怎么产生随机数？
一、利用random方法来生成随机数。在Java语言中生成随机数相对来说比较简单，因为有一个现成的方法可以使用。在Math类中，Java语言提供了一个叫做random的方法。通过这个方法可以让系统产生随机数。二、通过Random类来生成
如何给html页面添加动态等待效果
网友看看是否符合需求，修改起来也很方便，都做了注释；实在不会的，去查看手册即可&lt!DOCTYPE HTML&gt&lthtml&gt&ltmeta charset="UTF-8"
什么是R语言
什么是R语言R是用于统计分析、绘图的语言和操作环境。R是基于S语言的一个GNU项目，所以也可以当作S语言的一种实现，通常用S语言编写的代码都可以不作修改的在R环境下运行。R 是统计领域广泛使用的诞生于 1980年左右的 S 语言的一
前端必看的书籍
了解更多的前段知识请看下面我精心为您整理的前端必看的书籍，希望您喜欢!十本学习前端必看书籍第一本，入门《Head first HTML&ampCSS》最好的入门书。看两遍就对HTML &ampCS
在CSS中固定定位的问题
1、绝对定位和固定定位的元素若没有设置 toprightleftbottom 的值。其位置为原来在文档流中的位置。其他文档流元素会占据其原来位置。要使绝对定位或固定定位的元素水平居中，需要设置其 width 为固定值，并且 l
如何使用css3实现一个圆形菜单
方法1：用Css实现 css菜单显示效果 ** *菜单的构造,需要绑定到onload * startList = function() { if (document.all&amp&ampdocument.getEle
以太坊如何使用web3.js或者rpc接口获取交易数据交易时间与确认数？
如果要查询主网上的交易记录，可以使用etherscan。但是，如果是你自己搭建的私链，应该如何查询交易记录呢？答案是你需要自己监听链上的日志，存到数据库里，然后在这个数据库中查询。例如：var addr = "0xbfb2e2
python炫酷烟花表白源代码是多少？
学完本教程后，你也能做出这样的烟花秀。如上图示，我们这里通过让画面上一个粒子分裂为X数量的粒子来模拟爆炸效果。粒子会发生＂膨胀”，意思是它们会以恒速移动且相互之间的角度相等。这样就能让我们以一个向外膨胀的圆圈形式模拟出烟花绽放的画面。经过
使用左手法则右手法则摸墙法（左手或右手在迷宫中始终不离开墙）写一个python程序解迷宫
下面的代码假定你的迷宫数据一定是合法的（单一的入口和出口，不会打环，不会无解），如果数据不合法，可能导致死循环，数据合法性的检查你自己实现。另外，我用东南西北四个方向来代替所谓的上下左右，因为左右概念是相对的。用python 2。pu
r语言教程是什么？
R语言教程是指导使用R语言的手册，用于统计分析，图形表示和报告的编程语言和软件环境。R语言由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建，目前由R语言开发核心团队开发。R语言在GNU通用公共许可证下免费提供
2022python2级考试时间
时间分别为 3月26日至28日(第64次)、5月28日至29日(第65次)、9月24日至26日(第66次)及12月3日至4日(第67次) 。全国计算机等级考试（National Computer Rank Examination，简称NCR
什么是CSS?
CSS在英文中有如下几种常见的缩写：1，Cascading Style Sheets层叠样式表2，Content Scrambling SystemDVD电影的加密系统3，Cast Semi-Steel半铸钢, 钢性铸铁4，Co
java运算符输入结果为什么没有abc
java本身是不会根据你输入的第三个字符做相应的运算。java用户自己不能对运算符重载，所以只能对你输入的第三个字符做判断，然后做相应的运算处理。变量没有赋值使用会报出变量未初始化的编译错误。不管是数据还是标识符或者关键字都区分大小写，例如
Java语言杨辉三角
打印杨辉三角代码如下：public class woo {public static void triangle(int n) {int[][] array = new int[n][n]三角形数组for(int i=0i&am
艺术设计专业用什么电脑比较好?
1，有条件的话，艺术设计最适宜用的机器是苹果电脑，性能比较稳定，做平面设计、广告印刷类比较好，但是价格太高，对安装的软件也有要求；2，不建议用笔记本做艺术设计，一则快捷键用起来不方便，尤其数字键，二则色彩不准，图片大的时候速度慢，通常在谈生
学php和js哪个好啊
这个需要你的学习方向，JavaScript（js）是用在前端方面的脚步语言，php语言是用来写后台的。想做网站开发建议你是先学习JS 前端部分学好，在学习php 和mysql 数据库的知识，这个是相关练的都市需要会的。网站开发现在
请问如何用R语言做大量次数的几何布朗运动的模拟（参数μ，σ已知）
这上网搜应该搜的到吧，比如这篇文章"股票价格行为关于几何布朗运动的模拟--基于中国上证综指的实证研究",照着几何布朗运动的公式直接写代码应该就行了吧，代码逻辑都很清晰。下面是照着这片文章模拟一次的代码，模拟多次的话，外面
为什么网吧电脑没有主机？
网吧的电脑一般都是一体机，网吧为了节约成本一般选用的电脑都是一体机，一体机是指将传统分体台式机的主机集成到显示器中，从而形成一体台式机。拓展资料一体机的优势：简约无线：最简洁优化的线路连接方式，只需要一根电源线就可以完成所有连接。减少了
R语言绘制限制性立方样条（Restricted cubic spline，RCS）
在医学研究中，我们经常构建回归模型来分析自变量和因变量之间的关系。事实上，大多数的回归模型有一个重要的假设就是自变量和因变量呈线性关联，这个条件实际很难满足。常见的解决方法是将连续变量分类，但类别数目和节点位置的选择往往带有主观性，并且分
小程序js怎么控制css样式
$(function(){ $("#btn1").click(function(){ var Cp=$("#p") Cp.css{"color",
css设置字体间距
01先看下我们的html代码，很简单，就是一个div里有一段文字，我们为这个div添加了一个样式 zn02默认情况下，不加任何样式时，这段文字的间距是很小的，如图03为了添加文字的间距，我们可以添加letter-spac
如何在中文网页中利用CSS来设定中文是宋体、英文是Arial？
网页中通过CSS的font-family属性，来定义字体的，页面默认中文是宋体，也可只定义一个英文Arial即可。方法如下：body { font-family: Arial, "宋体"}补充：font 简写
css盒子模型包含哪几部分
盒子模型分为哪几部分？一个盒子模型分成几部分：- 内容区（content）- 内边距（padding）- 边框（border）- 外边距（margin）12345内容区内容区：盒子中放置内容的区域，也就是元素中的文本内容，子元素都是存在于内
css 向左向下箭头
使用当然，其他任意方向也是可以的，只需要控制旋转角度rotate即可。原理是构造了一个正方形，隐藏了其中的两条边left和bottom，然后进行旋转。通过使用正方形左下两条边，并向下向右平移，再旋转，得到一个向下并居中的箭头当d
VEX机器人编程使用什么语言
机器人编程是为了让机器人完成某种任务而设置的动作顺序描述，不同的机器人使用的编程方法是不一样的，乐高EV3机器人采用的是模块化编程，VEXIQ和VEX机器人则采用C语言编程，不管是那种编程方法都是顺应孩子的逻辑思维发展规律的，因而也是比较适
请问什么是LPC
第一章 Lpc程序和编程环境-----------------------------------------------------------第一节编程环境通常我们所见到的Mud大多是LpMud。LpMuds使用Unix的指令和文件结
CSS盒模型
CSS盒模型：将页面所有元素表示为一个个矩形的盒子，CSS决定这些盒子的大小，位置以及属性。 &lth1&gt...&lth6&gt、&ltp&gt、&ltdiv&gt、
汉中java开发好找工作吗
截止到2022年12月27日，好找。根据职友集信息显示，汉中java高级开发工程师招聘职位，市场需求量越大，就业情况相对较好。Java，是由SunMicrosystems公司于1995年5月推出的Java程序设计语言和Java平台的总称。J
打开某制定网站需要下载RE.JS文件很有可能是无线网卡驱动更新的问题，大家只需要还原以前的网卡驱动就行
方法如下：方法一：更新网卡驱动1、在桌面找到我的电脑。2、右键点击设备管理器。3、找到无线适配器，单击，出现驱动然后点击右键进行更新。方法二：重新下载网卡驱动（1）手动官网驱动下载1、按照电脑品牌搜索官网。2、在官网的支持专区输入电脑型号搜
关于css插入音乐
这个单单靠css或者html是办不到的要达到你这个目的，那么，在播放音乐的时候，应该要把音乐已经播放的时间，记录到用户端，比如cookie，当按分页后，读取客户端的cookie参数，然后将音乐调整至相应时间继续播放。这样就达到你的目的了，但

推荐阅读

热门文章

最新发布

标签列表

怎样使用scrapy爬取js动态生成的数据

给您推荐相同类型的内容：