怎样使用scrapy爬取js动态生成的数据

2023-04-21 21:10:02JavaScript038

怎样使用scrapy爬取js动态生成的数据,第1张

这个方法只是获取页面源码；你的要求是获取DOM结构；

有一个方式，使用lxml库，先使用selenium获取整个html的DOM，再把Dom转存到lxml对象，这样的方式可以获取到正html Dom tree,下面例子：

def parse_from_unicode(unicode_str): #html DOM tree to lxml 格式

utf8_parser = lxml.etree.HTMLParser(encoding='utf-8')

s = unicode_str.encode('utf-8')

return lxml.etree.fromstring(s, parser=utf8_parser)

def parse(request):

driver = webdriver.PhantomJS()

html =driver.find_element_by_name('html')

lxml_html=parse_from_unicode（html）

kk=lxml_html.xpath('//tr') #使用xpath匹配

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：python中什么是序列，列表，元组，字符串，索引，区别是什么？

# 下一篇：用java写收发邮件的程序，求助，在线

给您推荐相同类型的内容：

java中怎么将xml文件转换为实体类
这个问题很常见就是java解析xml的问题，应用很多解析主要有2种模式1、DOM解析，这里里面包括JDOM，DOM4J等等，解析的思想类似，化为一类，这类解析思路清晰明白，元素读取直观，缺点是对大型xml文件解析会发生内存溢出错误，因为这类
ks是什么意思？
1、ks，KillSteal的简称，游戏术语。俗称抢人头，用来指一个玩家"窃取"另外一个玩家的猎物，在小兵快死之前保存火力，只打最后那下以获得小兵击杀奖励（通常也就是游戏中的金币）。通常很多电竞、团战游戏中，给予目标最
css如何文本向左对齐
文本居左对齐，两端对齐，靠右对齐，或者说居中对齐，通用一个属性：text-aligntext-align参数值与说明：left：内容左对齐。center：内容居中对齐。right：内容右对齐。justify：内容两端对齐，但对于强制打断的行
css文本框想让输入的文字颜色明显些，该怎样设置？
直接设置placeholder的字体颜色为红色就行了嘛，哪来的灰+红？x0dx0ainput{color:#fff}x0dx0ainput::-webkit-input-placeholder{color:#fff}x0dx0a
怎么找绣花机机针旋梭的最佳配合点?196代表什么？
196是调整旋梭时的主轴度数，也就最佳配合点。找绣花机机针旋梭的最佳配合点的方法如下:1、先把三颗旋梭螺丝松了，之后就把刻度盘转到196度，然后举把针杆压下去。2、调整旋梭与针之间间隙，旋梭尖正对针孔时，间隙在0.3mm到0.5mm较
ie浏览器网页颜色css过滤不了
zoukankanhtmlcssjsc++javaIE浏览器加载CSS文件，但是不起作用的原因如果有哪一天，你突然发现自己写的的脚本不起作用了，而这一切又只是发生在IE浏览器上，你会怎么办？你是认为自己写的程序有问题呢？
js防水涂料施工工艺介绍
js防水涂料就是我们生活中最常见的防水卷材材料。js防水涂料是防水制作中少不了的重要材料，甚至可以说起到核心作用。js防水涂料的主要特点是无毒无味，并且可以用于水池防水。例如墙面外墙，屋面墙以及斜面墙都是可以使用的，除此之外js防水涂料还具
CSS3中的变形处理
在CSS3中，可以利用 transform 功能来实现文字或图像的旋转、缩放、倾斜和移动着4种类型的变形处理。在CSS3中，通过 transform 属性来使用 transform 功能。使用 rotate 方法，在参数中加入角
Css高阶用法(一) matrix
"点积" 是把对称的元素相乘，然后把结果加起来： (1, 2, 3) • (7, 9, 11) = 1×7 + 2×9 + 3×11 = 58 我们把第一个元素相配（1 和 7），然后相乘。第二个元素（2 和
怎样用JS实现-点击文字前后内容都变换
给几种方法：添加点击事件，然后在点击事件里面改变元素的value利用元素互换的办法替换现有元素把需要的元素都放上去，让不用的影藏，用的显示简单的处理方法：window.onload = function () { titl
JS实现内容复制功能
复制是一个使用频率特别高的操作，在网页中，一般可以选中要复制的内容，使用快捷键 ctrl+c将内容复制到剪贴板。除了使用系统提供的快捷方式复制网页内容，我们还可以用JS实现复制，这得益于document的 execCommand(�
电脑psp模拟器安装方法
你想不想在电脑上玩psp游戏呢?其实通过psp模拟器就可以在电脑上玩psp游戏了。下面是我收集的关于电脑psp模拟器安装方法，希望对你有所帮助。电脑psp模拟器安装方法一、软件下载 1、下载安装JAVA，运行此模
电脑几核处理器怎么看？
1、在电脑桌面找到左下角的开始菜单图标，右键点击图标。2、在弹出的菜单中，找到任务管理器选项，点击进入。3、在任务管理器界面中，找到性能选项，点击进入。4、在性能界面中，找到“打开资源管理器”选项，点击进入。5、在弹出的资源管理器界面中，找
笔记本显卡怎么换
笔记本显卡的更换方法如下：工具原料：联想Y7000P。Windows10。笔记本专用显卡RTX3060。1、首先，把笔记本电脑翻转，拆下固定螺丝。2、打开笔记本电脑后盖1号位卡扣，按住2号位按钮，将光驱拔出。3、抠开笔记本电脑后
网页设计中，怎么用CSS让不同行的字显示在一行，例如图所示，上面怎么变成下面这种？
可以通过浮动来设置，让不同行的两行一个左浮动，一个右浮动，这样，它们就显示在一行了。还有一种方法是所有元素都左浮动，然后指定宽度，让宽度正好是两列的值，那么到两行的时候，它会自动折行。通过决定定位，分别对没一行文字进行绝对定位，因为是绝对定
html5 video标签的控制按钮怎么用css修改
Html5 Video是现在html5最流行的功能之一,得到了大多数最新版本的浏览器支持.包括IE9,也是如此.不同的浏览器提供了不同的原生态浏览器视频空间.我们制作自定义视频控件为了在所有的浏览器中有一个相同的Html5视频控件而不受默认
R代表些什么？
1、数学中的R数论的 R 表示集合理论中的实数集，而复数中的实数部分也以此符号为代表。几何学的R 或 r 表示一个圆的半径。几何学中，∠R则表示直角。几何学中，直角三角形可表示成Rt△，“Rt”出自英文right-angle（直角）
如何用javascript实现围棋游戏
&lthead&gt&ltmeta http-equiv="Content-Type" content="texthtmlcharset=utf-8" &gt&am
CSS样式优先级及穿透
CSS优先级是根据等级的值相加得出选择器的权重来决定的。 !important &gt行内样式 &gtID &gt类、伪类、属性 &gt标签名 &gt继承 &gt通配符计算权重方式
js计算器代码怎么写,通过弹窗显示
js计算器代码，通过弹窗显示步骤如下。1、js计算器代码编写html，实现计算器页面视图效果。2、js计算器代码编写，实现点击输入数字和符号输出结果。3、js计算器代码创建click1函数，判断flag的值，如果是true就定位到第一个输入
3国里的JS，40级以上50级以下有什么装备！
帽子：50惊尘冠衣服：45天罡甲护手：50飞羽护手裤子：50飞羽下装鞋子：50惊尘靴武器：50碎玉剑45空梦剑46昆吾剑建议：升到50`换全套惊尘的`昆吾剑不好用`小怪掉的`很少有极品属性希望采纳，谢谢海盗50级鞋子名字叫头目靴，有五次升级
weex 怎样引用外部css文件，js文件
weex是基于vue搭建的，所以也遵循CommonJS的模块化规范，可以使用require来引用别的js文件，或者用ES6的import来引用js文件。weex怎么引用外部css，我也不是很清楚......，一般是通过一个整体布局的html
css盒子模型及盒子模型的类型
转自菜鸟教程所有HTML元素可以看作盒子，在CSS中，"box model"这一术语是用来设计和布局时使用。 CSS盒模型本质上是一个盒子，封装周围的HTML元素，它包括：边距（外边距），边框
在css中如何声明弹性
CSS3 弹性框(Flexible Box或Flexbox)，是一种当页面需要适应不同的屏幕大小以及设备类型时确保元素拥有恰当排布行为的布局方式。对很多应用程序来说，由于不使用浮动，且弹性容器的外边距也不会与其内容的外边距合并，弹性框模型比
jspp软件如何设置隐藏手机号
需要四步。1.打开JSPP，点击右下角我的。2.点击设置。3.点击隐私。4.点击隐藏手机号。给文件夹加密有两种方法：方法一：右击文件夹--添加到压缩文件--高级--设置密码，不要忘记密码，否则就很难找回了。方法二：还是建议直接下载个加密软
怎么用js实现类似手机切屏的左右滑动的效果
这是自己封装的原生js方法，为了偷懒，用了电jqurey。调用方法如下：touchs._left(object)往左滑动，touchs._right(object)往右滑动touchs._top(object)往上滑动t
笔记本电脑如何重装系统？
一、重装准备4G左右U盘，使用U教授制作U盘PE启动盘二、笔记本电脑重装系统步骤如下1、首先将U盘做成PE启动盘，把笔记本系统镜像的gho文件解压到U盘GHO目录；2、在笔记本电脑usb接口上插入U盘，开机时按F12、F11、ESC等快捷键
JS悬浮窗口如何实现
jsp中：&ltbody&gt&ltdiv style="position: absolutez-index:90" id="div1"&gt我不动&ltdi
笔记本小键盘怎么开
① 14英寸部分机台键盘上有NumLK按键，可以通过fn+NumLK开启或关闭数字小键盘② 15英寸部分机台有小键盘区域，可以直接按下NumLK按键开启或关闭数字小键盘。③ 部分键盘上没有标注NumLK按键，可通过fn+Insert开
用java写收发邮件的程序，求助，在线
import java.util.Propertiesimport java.util.Dateimport javax.mail.Sessionimport javax.mail.Messageimport javax.mail.Tran

推荐阅读

热门文章

最新发布

标签列表

怎样使用scrapy爬取js动态生成的数据

给您推荐相同类型的内容：