如何用python爬取js动态生成内容的页面

2023-04-29 07:43:01JavaScript038

如何用python爬取js动态生成内容的页面,第1张

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

对于这种动态加载的网站，建议使用第三方库selenium爬取。

它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

对于主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持，网站上的元素也支持多种选择器，如class、id、xpath等。

但是用习惯以后，对于这种非纯静态页面，离开selenium感觉就完全不会爬虫了。

大家好，我是辣条。

一个建筑行业的堂哥为了搞一些商业数据前前后后花了1w，辣条我半个小时就能解决的事情，这就是技术的魅力【爬取是的公开数据！】

网址：监管平台

开发工具：pycharm 开发环境：python3.7， Windows10 使用工具包：requests，AES，json

进去h里面 (鼠标光标放到 h上面会显示他的 js地址如果没有显示就是证明你还没有执行到这里需要在前面打上断点刷新页面调试)

发现这个采用AES加密算法使用模型CBC模式采用填充方式为 Pkcs7

证明数据推导正确在 return r.toString() 打上断点

r里面数据正常返回

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：最好的python视频教程谁有

# 下一篇：CSS3 matrix3d矩阵变换和动画变换

给您推荐相同类型的内容：

python--目录操作
一、os.getcwd()获取当前工作目录，即当前Python脚本工作的目录路径。二、os. chdir(path)改变当前脚本工作目录；相当于shell下的cd命令。三、os.pardir返回当前目
java 如何实现系统消息推送
消息推送方式分为两种：短连接和长连接。也就是客户端与服务器之间的数据传输交互方式不同。1、短连接又称为轮询，方式为pull。客户端定时向服务器发送请求，询问是否有数据，时间频次可以设置。这种的方式更适合web端使用，用在APP有很多弊端。2
Python视频教程，百度云
[python视频教程] lets python视频教程免费下载链接:https:pan.baidu.coms1YYn_vepCtq3CcKBD-vfnuw提取码:dxpn[python视频教程] lets python 视频教
C语言的数据类型分为几种？
一、C语言中基本数据类型分为三类：整数型（定点型）、实数型（浮点型）和字符型。当然，除了基本数据类型，还有构造类型（数组、结构体、共用体、枚举类型）、指针类型、空类型void。最常见的基本数据类型，也就是整数型、浮点型和字符型。C 语言包含
js 怎么获取年月日时分秒中的时分秒
需要准备的材料分别有：电脑、html编辑器、浏览器。1、首先，打开html编辑器，新建html文件，例如：index.html。2、在index.html中的&ltscript&gt标签，输入js代码：var a = n
CSS布局：float、position、flex、grid
CSS是前端基础技能之一，而CSS最重要的功能就是网站布局。 CSS布局方式有很多，从远古时代的table（表格）布局--&gtfloat（浮动）布局--&gtposition（定位）布局--&gtflex（弹性
java线程组，线程池，线程队列分别是什么？有什么区别？
你好，我可以给你详细解释一下：线程组表示一个线程的集合。此外，线程组也可以包含其他线程组。线程组构成一棵树，在树中，除了初始线程组外，每个线程组都有一个父线程组。允许线程访问有关自己的线程组的信息，但是不允许它访问有关其线程组的父线程组或其
javascript 如何创建一个list
list = [w , h]你list是个数组，只能通过脚标获取list[0]获取的就是w了，不用再点了如果你list是个对象比如list = {"w":"I am w","h":
R语言常用函数（基本）
vector：向量 numeric：数值型向量 logical：逻辑型向量 character；字符型向量 list：列表data.frame：数据框 c：连接为向量或列表 sequence：等差序列 rep：重复 length
Web前端开发知识点之CSS的使用方式
今天小编要跟大家分享的文章是关于Web前端开发知识点之CSS的使用方式。本文章小编从与HTML的结合方式、CSS语法、选择器以及盒子模型四个方面进行讲解。下面来和小编一起看一看吧！一、与HTML的结合方式CSS与HTML的结合方式一共有三种
适配css大屏宽屏字号变扁了怎么办
下载驱动精灵以后检测安装驱动。css是层叠样式表，是一种用来表现HTML或XML等文件样式的计算机语言，适配css大屏宽屏字号变扁了下载驱动精灵以后检测安装驱动即可。css的主要使用场景就是美化网页，布局页面的。属性和属性值用冒号隔开，以分
d3js的tree结构图例怎么做
如下过程：使用d3.js初始化d3和画布大小，tree = d3.layout.cluster().size([h, w])导入数据，使用d3默认处理数据： root = tree.nodes(data)处理数据（包括坐标的处理）展示数据思
Java线程的知识要点？
一、进程的概念进程表示资源分配的基本单位，又是调度运行的基本单位。例如，用户运行自己的程序，系统就创建一个进程，并给它分配资源，包括内存空间、磁盘空间、IO设备等。然后，把该进程放入就绪队列。进程调度程序选中它，为它分配CPU以及其他有关
CSS 画动态圈
&ltdiv class="container"&gt &ltdiv class="light"&gt&ltdiv&gt&ltdiv&
学习c语言哪个书比较好些？
1.C语言入门经典《C语言入门经典》例子简单生活化，而且每个例子分析很细。章节安排合理，章末的例子还特别注重思路的引导，而且分析起来特别有成就感。这本书是自学过程的一本好书。2.C primer plus这本书很适合希望系统学习C语
JS做的进度条，如何做的？
js其实是没法计算到网页的加载进度的。目前见到的打开页面显示进度的有两种1、如果是flash做的，那是flash自身的加载进度。2、如果是js做的，做法比较简单，就是在页面的不同的地方插入script标签，动态改变进度的值。
div+css 列表(项目符号图像)与文字中线对齐
首先 list-style-image不能设置位置，所以如果要实现你的效果，要把你的项目符号直接做成尺寸刚刚好的，这样个尺寸大小的，但是这样限制性太强，所以还是用背景来做比较方便background:url("..images
css中<li>标签的属性list-style和list-style-type这个两个有什么不同啊？求高手指教！
这两个CSS属性产生的效果是一样的！list-style是对列表标签的缩写，而list-style-type是其中的一个属性，而list-style一共可以包含三个值，即:list-style:typelist-style-position
python逢7拍手去除末尾逗号
python逢7拍手去除末尾逗号有以下两种方法：1、先定义空字符串，然后将向输入的内容后面添加逗号，并连接起来，最后输出。2、定义列表，然后将其要输出的内容存入该列表，最后采用逗号连接即可.自定义一个函数输出list，用空格代替逗号：de
CSS3 matrix3d矩阵变换和动画变换
3d变换我们首先要弄清楚坐标轴的方向，3D变形的坐标轴则是X,Y,Z三条轴组成的立体空间，X轴正方向是朝右，Y周正方向是朝下，Z轴正方向是朝屏幕外假定都是在三维空间中，平面坐标应该更加简单，刻画一个点的向量应该:[x, y,
python中的按位取反运算
按位取反运算符：~运算结果：~x=-（x+1）例如：~9为-10 ~（-9）为8 这不是按位取反吗？怎么结果是这样？看下面。转二进制：0 1001 计算补码：0 1001 要知道它所表达的数是多少，需要转换为原码
夜幕网络团队怎么样
夜幕网络团队好不好我不加以评论，以前也有一些交际，，他们是做自媒体、搜索引擎优化，主要是网络上面的项目基本可以说都做，具体的你们需要亲自了解到底怎么样了，比较我感觉挺好的，但是你们不一定感觉好，因人而异对吧。夜幕山庄相比其它生化地图来说，显
js json中如何删除指定元素
删除json下指定的元素var obj = {‘id’:1, ‘name’:2}delete obj.iddelete obj[id]console.log(obj) {‘name’:2}删除数组中指定元素var objArray =
Python的创造者是谁
Guido van Rossum，Python之父，就是他用一部英国喜剧《蒙提·派森的飞行马戏团》（Monty Python and the Flying Circus）命名了这门语言。1989年，他在荷兰创造了Python（果然名字里有V
Java中按字节读取时两个字节是怎么截取的
例如strings="helloworld"stringsubstri=s.substring(0,5)这里将会获得hellosubstring是string类的一个截取字符串的方法，方法里面第一个参数是从第几位开始
JAVA开启三个线程，去读取数组中的数据不能重复
set中是不能存在重复数的。这个可以通过修改数据的时间来判断。例如：表中有个字段读取时间。当这个客户读取10条数据的时候，更新读取时间为当前时间。然后下个客户读取的时候，判断时间在半个小时内，没有更新的数据。就OK了。例如：一个线程正准备往
js如何实现数字滚动效果
jquery实现立体式数字滚动条增加效果，代码分为两部分，一部分位html结构另一部分属于js代码段，需要的朋友参考下吧！1、html结构&ltdiv class="numberRun1"&gt&
wordpress 如何添加如下网页的JS动态背景?
&lt!doctype html&gt&lthtml lang="en"&gt&lthead&gt&ltmeta charset="UTF-8"
js能不能获取图片的大小
当然可以，假设网页上有这样一个图片 &ltimg id="myimg" src="1.jpg"&gt使用如下 JS 代码获取图片宽高var myimg = document.g
web前端自学html和css大概要多久呢？
HTML5+CSS3，需要大家掌握的知识点是我们常用的浏览器和浏览器内核是什么，和html语法和使用技巧并将常用标签掌握。还需要学习的就是css的语法和使用技巧等等。一般自学的话经常联系、接受能力足够强的话15-30天左右就可以掌握。web

推荐阅读

热门文章

最新发布

标签列表

如何用python爬取js动态生成内容的页面

给您推荐相同类型的内容：