如何用python爬取js动态生成内容的页面

2023-05-01 06:44:02JavaScript0164

如何用python爬取js动态生成内容的页面,第1张

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

我用Jsoup写爬虫，一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。

1、有些页面元素被隐藏起来了->换selector解决

2、有些数据保存在js/json对象中->截取对应的串，分析解决

3、通过api接口调用->伪造请求获得数据

还有一个终极方法

4、使用phantomjs或者casperjs这种headless浏览器

抓取动态页面有两种常用的方法，一是通过JavaScript逆向工程获取动态数据接口（真实的访问路径），另一种是利用selenium库模拟真实浏览器，获取JavaScript渲染后的内容。但selenium库用起来比较繁琐，抓取速度相对较慢，所以第一种方法日常使用较多。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：r语言每次都要重新加载程序包么

# 下一篇：6 个值得玩味的 Python 代码

给您推荐相同类型的内容：

怎么自己重装电脑系统?
1.下载秋叶一键还原软件V6.7最新版放到电脑里边；2.然后下载秋叶系统放到硬盘，注意：不要放到C盘，因为C盘是系统盘；3.已经下载好的秋叶一键还原软件，然后点击“一键重装系统”按钮见下图所示；4.这时会自动识别到已经下载好的GHOST系统
淘宝双十一队伍匹配规则
221淘宝双十一团队组队规则如下:每个用户最多可以邀请4个人组成一个团队。组队成功后，系统会根据该队员是否第一次被领队邀请，给予领队团队奖励。团队奖励是喵糖果，可以用来提取糖果，占领格子。活动期间，每个用户最多可获得4次领队奖励，而重复拉
uniapp搜索框高度
uni-app提供了一个状态栏高度的css变量，更改这个变量就可以更改搜索框高度扩展资料顶部的图标只支持本地图片哈，所以你要将阿里巴巴上的图标下载到本地，然后只要XXX.ttf这个文件就行了然后放在static这个文件中在pages.js
如何制作字母头像
1、要有工具，点此下载QQ爱空间站qq透明文字头像生成器 qq头像文字工具下来了，解压，然后打开，2、先导入头像，导入头像的方式有很多种，在区域1中，输入qq号然后点击“读取网友头像”，就可以把任何qq号的头像读取过来，点“本地图片”则
什么是类的加载？何时加载？
当程序主动使用某个类时，如果该类还未被加载到内存中，系统会通过加载，连接，初始化三个步骤来对该类进行初始化，JVM将会连续完成这三个步骤，也把这三个步骤统称为类加载或类初始化。类加载指的是将类Class文件读入内存，并为之创建一个java
css html 如何让div里边的图片和文字同时上下居中？
1、首先先进行文本框的插入，在word文档编辑界面上，单击上方工具栏中的“插入”按钮，包括文本框，所有的插入选项都在这里。2、在“插入”选项的下拉工具栏中，选择如图所示“文本框”图标单击。3、接下来会弹出文本框样式的选择框，在里面可以根据需
px与rpx换算
rpx是微信小程序中css的尺寸单位，可以根据屏幕宽度进行自适配。规定屏幕宽度为750px，譬如iphone6，屏幕宽度为375px，共有750个物理像素，则1rpx = 0.5px。设备rpx换算px：屏幕宽度750，px换
如何让电脑死机
在有些时候，我们需要让电脑死机，这个情况该怎么办呢?下面就由我来为你们简单的介绍如何让电脑死机的方法吧!　　如何让电脑死机分析及解决：新建一个文本文档，打开，输入“shutdown -s”(中间
Css—float的影响和解决方案
推荐俩种依靠clear属于清除浮动的方法，推荐第二种，探究的记录在后面，赶时间的看个开头就好了。1. 在受浮动坍塌的父级元素结束标签前，添加一个高宽为0的空div，然后设置 clear:both2 .创建一个clear
js怎么修改form属性值？
&ltbody onload="document.getElementById("zhucebiao").action="zhuce2.php?userid="+userid&quo
c语言输入字符串的方法有哪些？
c语言从键盘输入字符串的步骤如下：1.首先我们新建一个dev C++的项目。2.接下来在项目中新建C语言程序文件。3.然后在C语言文件中声明一个字节数组。4.接下来我们通过printf函数提示用户输入字符串，通过scanf接收用户输入的字
电脑五笔字根拆字法
一、取大优先，按照书写顺序为汉字编码时，拆出来的字根要尽可能大，即“再添一个笔画，便不能构成笔画更多的字根”为限度。例如世：廿乙（正确）世：一凵乙（错误）二、兼顾直观，在确认字根时，为了使字根的特征明显易辩，有时就要牺牲书写顺
”java” 在两个范围内取一个随机数怎么做？
Math.random() 方法能返回大于等于 0.0 且小于 1.0 double 型数值。x0dx0a即它的取值区间为[0,1)，包括 0 不包括 1。x0dx0a你需要做的是把范围放大，怎么放大一个数？当然是用乘法啦。x0d
电脑解压文件的速度越来越慢怎么办
是因为电脑的长期使用使磁盘碎片增多，导致系统运行速度过慢。整理磁盘碎片的方法步骤如下：需要准备材料或工具：电脑。1、点击并打开桌面的计算机图标，然后右键点击需要整理的磁盘，如图所示：2、在菜单栏中选择“属性”选项。3、点击属性窗口的“工
java正则表达式校验 ip
你直接用matchs判断就可以了，matcher是只要内部有能匹配上的就算满足，不是判断整体。String rexp = "([1-9]|[1-9]\d|1\d{2}|2[0-4]\d|25[0-5])(\.(\d|[
如何在python程序中发邮件
python中email模块使得处理邮件变得比较简单，今天着重学习了一下发送邮件的具体做法，这里写写自己的的心得,也请高手给些指点。一、相关模块介绍发送邮件主要用到了smtplib和email两个模块，这里首先就两个模块进行一下简单的介绍：
Python小技巧：两行代码实现批量给图片填加水印，这也太简单了
我们平时要给图片加水印，但是又不会PS，免不了着急上火，还找不到人，想想还是得自己学一手~ 而且图片很多的话，PS还是挺慢的，用Python一键生成即可，效率杠杠的。准备工作环境的话我这里使用的是 Python 和 pyc
记事本怎么写css外部样式,怎么没有效果？
HTML 代码-01打开以上的 HTML 可以看到什么都没有, 因为 div 并没有设置宽高和颜色等...打开 HTML-01先书写一段 HTML 代码为一会儿的 Css 样式做准备新建记事本在同级下创建一个 *.txt 记事本文件
R语言-均值填充缺失值
在基因芯片数据或其他类型数据中，采用计算所有样本的平均值从而进行填充，如果需要用中位数或其他统计量填充时只需修改相应的方法即可 #1. 检查是否有缺失值 which(is.na(mRNA),arr.ind = T) #2. 计算
6 个值得玩味的 Python 代码
先选取了 6 个自己认为值得玩味的 python代码，希望对正在学习 python 的你有所帮助。1、类有两个方法，一个是 new,一个是 init,有什么区别，哪个会先执行呢？运行结果如下：再来看另一
css 如何实现颜色的渐变？？
需要准备的材料分别有：电脑、浏览器、html编辑器。1、首先，打开html编辑器，新建html文件，例如：index.html。2、在index.html中的&ltstyle&gt标签中，输入css代码：div {wid
求助用js怎么转换json的keys和value 都变成value
其实就是for in的运用var t={"MONTHLY":{"2015-11":5,"2015-10":2,"2015-09":3,"2015-12
在jsx里面写html，怎么能支持emmet
输入 Emmet 指令(例如“table&gttr*3&gttd*5”)，再按下 Tab 键，就可以了。但是在默认配置下， HTML, XML, HAML, CSS, SASSSCSS, LESS, JavaScript
C语言和其他语言优点？
优势？为什么C语言依然如此流行?由于种种原因，业界选择了C，其中最主要的原因就在于它的效率。优秀C程序的效率几乎和汇编语言程序一样高，但C程序明显比汇编语言程序更易于开发。和许多其他语言相比，C给予程序员更多的控制权，如控制数据的存储位置和
如何用phantomjs去抓取js渲染后的页面
如何用phantomjs去抓取js渲染后的页面phantomjs因为是无头浏览器可以跑js，所以同样可以跑dom节点，用来进行网页抓取是再好不过了。比如我们要批量抓取网页 “历史上的今天” 的内容。网站对dom结构的观察发现，我们只需要取到
【R语言】--- 饼状图
饼状图，又称为饼图，能够划分几个扇形的圆形统计图。可以描述量、频率、占比的相对关系。R语言中，可以用graphics包的pie()函数、ggplot2包的geom_bar()配合coord_polar()函数绘制，3D 的饼状图，可以使用
css ps倒过来
css可以通过perspective属性来实现。ps可以直接通过滤镜中的翻转效果实现。对于ps，首先打开Photoshop，导入需要编辑的图片，用选取工具选定图片，在工具栏中打开滤镜效果，选择反转效果即可。对于css，css实现翻转效果的方
JS的基本数据类型
基本数据类型： 1、变量已经声明但是没有赋值，所以默认undefined let username typeof是用来检测变量的类型这里的username是
#ccc是什么颜色
1.是一种银灰色，或者说是银色，或者可以说是灰色，或者是铁灰色都可以。2.#ccc这个编号是CSS设置的颜色编号。根据每个编号来对应不同的颜色。是一种属性设置的编号。3.每个编号对应一个颜色。每个颜色只有一个标准值。标准颜色不可以更改或者是
帮忙看下哪个是控制CSS左右之间的间距啊,这个是导航栏目的CSS
.nav .path, .nav .other { float:leftdisplay:inlinemargin-left:11pxline-height:32pxheight:32pxoverflow:hidden}.nav .other

推荐阅读

热门文章

最新发布

标签列表

如何用python爬取js动态生成内容的页面

给您推荐相同类型的内容：