如何用python爬虫直接获取被js修饰过的网页Elements？

2023-02-14 13:36:02Python024

如何用python爬虫直接获取被js修饰过的网页Elements？,第1张

对于这种动态加载的网站，建议使用第三方库selenium爬取。

它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

对于主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持，网站上的元素也支持多种选择器，如class、id、xpath等。

但是用习惯以后，对于这种非纯静态页面，离开selenium感觉就完全不会爬虫了。

大家好，我是辣条。

一个建筑行业的堂哥为了搞一些商业数据前前后后花了1w，辣条我半个小时就能解决的事情，这就是技术的魅力【爬取是的公开数据！】

网址：监管平台

开发工具：pycharm 开发环境：python3.7， Windows10 使用工具包：requests，AES，json

进去h里面 (鼠标光标放到 h上面会显示他的 js地址如果没有显示就是证明你还没有执行到这里需要在前面打上断点刷新页面调试)

发现这个采用AES加密算法使用模型CBC模式采用填充方式为 Pkcs7

证明数据推导正确在 return r.toString() 打上断点

r里面数据正常返回

数据爬虫断点网站他的

# 上一篇：python多版本和虚拟环境(pyenv+conda or virtualenv)

# 下一篇：python中数组切片含义解析

给您推荐相同类型的内容：

Python爬虫如何写？
先检查是否有APIAPI是网站官方提供的数据接口，如果通过调用API采集数据，则相当于在网站允许的范围内采集，这样既不会有道德法律风险，也没有网站故意设置的障碍；不过调用API接口的访问则处于网站的控制中，网站可以用来收费，可以用来限制访问
Python类型可以转为JSON的number类型
python数据类型转化为JSON格式的数据有两种方式。第一种方式是，dumps（dict1）是将python数据类型转化为JSON类型的字符串string，dump（dict1，sp）将python数据类型转化为文件流，sp表示写入文件的
Python获取url中域名及从域名中提取ip的方法
这种方法为从urlparse模块中通过urlparse方法提取url通过hostname属性获取当前url的域名。此方法是通过urllib模块中splittype方法先从url中获取到proto协议及rest结果，然后通过splith
python之禅
The Zen of Python, by Tim Peters Beautiful is better than ugly. 优美胜于丑陋 Explicit is better than implicit.明确优于隐晦
python代码如何转换成C语言代码？代码如下：
转换c语言后的代码：void tset(int s[],int n){ for(int i=0i&ltni++)s[i]=s[i]+1}int s[]={1, 2, 3, 4, 5, 5, 6, 1, 4, 5, 5, 7, 1
python的list 和tupe
一、listlist是python内置的有序的列表，可以随时添加和删除其中的元素 1、定义 list_name = ["param1","param2","param3
python,如两图，花括号里的内容分别表示什么意思？谢谢
题主你好,先说第一幅图, 为啥 print('{:.^10.4}'.format('Flower')) 的输出结果是 ...Flow... 简单来说就是一个字符串的格式化,对应该例子来说就是对于&
为啥python读取数据库中文全是问号，应该如何处理
#coding:utf-8st="你从数据库中读入的字符串"st=st.decode("GBK") #或者查看一下数据库中的编码格式print st以前用php连mssqy时也经常出现中文乱码（中文变
python中,如何去掉字符串自带的引号?
replace掉就可以了。Python由荷兰数学和计算机科学研究学会的Guido van Rossum于1990 年代初设计，作为一门叫做ABC语言的替代品。[1]Python提供了高效的高级数据结构，还能简单有效地面向对象编程。Pyt
pythondef返回值为数组
#function to ask user to input name and scoredef GetInput():names=[]percentages=[]for counter in range(0,3):names.append
python有哪几种编码方式
第一种：ASCII码。是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言，它是现今最通用的单字节编码系统，并等同于国际标准ISIEC 646。由于计算机是美国人发明的，因此，最早只有127个字母被编码到计算机李，也就是大
如何用python对文章中文分词并统计词频
1、全局变量在函数中使用时需要加入global声明2、获取网页内容存入文件时的编码为ascii进行正则匹配时需要decode为GB2312，当匹配到的中文写入文件时需要encode成GB2312写入文件。3、中文字符匹配过滤正则表达式为ur
Python 从入门到精通推荐看哪些书籍呢？
本人是一名大学生，在我的大学期间。我辅修了人工智能这门课。在人工智能这门课中有一门课程是 Python 从入门到精通，在这里我为大家推荐几本有助于python学习的书籍。下面是我 Python 从入门到精通课程学习的
python中稀疏矩阵的怎么用numpy处理
NumPy是一个关于矩阵运算的库，熟悉Matlab的都应该清楚，这个库就是让python能够进行矩阵话的操作，而不用去写循环操作。下面对numpy中的操作进行总结。 numpy包含两种基本的数据类型：数组和矩阵。数组(Arrays)&
python怎么解析txt文件
#!usrbinpython# -*- coding: UTF-8 -*-import osimport sysdef read_file(filePath): lines=open(filePath).readline
在python中怎么裁剪图片大小？如何利用Python裁剪图片？
先对图片进行二值化处理。由于这些格子大小均匀，所以可以使用常规的除法，先裁剪出第一个格子：e=a[:,:,0].shapef=a[0:int(e[0]9),0:int(e[1]9)]io.imsave('00.pn
python中数组切片含义解析
关于数组切片的解析：① [i]、[-1]； ② [:-1]、[:n]、[n:]、[n:m]、[:]； ③ [n: m: x]、[: : x]、[: : ]、[-1: : ]、[: -1:]、[: :-1] ④ [a,
Python线上考试测试网络环境必须在家吗
必须在家线上考试”是通过网络进行考试的一种。随着网络的发展，考试的形式不局限于现场的实际考核，为了方便与节省时间、成本等，许多考核采用了线上发布，线上完成，线上考核，其形式也多种多样，诸如采用APP，或者插件小程序等形式。传统考试从出题、
python怎么监测svn库的文件有更新
python怎么监测svn库的文件有更新1、将文件checkout到本地目录svn checkout path(path是服务器上的目录)例如：svn checkout svn:192.168.1.1prodomain简写：svn
Python基础之pytest参数化
pytest是目前比较成熟功能齐全的测试框架，使用率肯定也不断攀升。在实际工作中，许多测试用例都是类似的重复，一个个写最后代码会显得很冗余。这里，我们来了解一下 @pytest.mark.parametrize装饰
Python简单加密操作
加密是将一个明文数据，按照指定的算法，运算得到一个其他的可以隐藏真实信息的密文数据，这个过程称为加密；处理的算法称为加密算法；用到的关键数据称为密钥。解密是按照制定的算法和关键数据，将一个密文数据进行逆向运算得到的正确的明文数据的过程
python如何另起一行？
方法有三种，分别是：1、在需要另起一行的地方输入三个单引号（'''）；2、在需要另起一行的地方输入三个双引号（"""）；3、在需要另起一行的地方输入反斜杠（）。python 字符串
python设置网络时间
您好，要设置Python网络时间，首先您需要安装Python的datetime模块。安装完成后，您可以使用以下代码来设置网络时间：import datetime# 获取当前网络时间net_time = datetime.datetime.n
python读取excel文件，将每一行都保存为一个列表。每一行对应一个列表。
python读写excel文件要用到两个库：xlrd和xlwt，首先下载安装这两个库。1、#读取Excelimport xlrddata = xlrd.open_workbook(excelFile)table = data.shee
python使用br打包发布apk
如下；py如果没有Qt \ bin,您可以复制本文件Qt网站。如果找不到现有PyQt5插件目录的错误出现在包装过程中,然后,1)找到PyQt5文件夹图书馆插件路径下蟒蛇目录下安装,并复制内容2)按照下面的错误报告一个句子,例如,如
简述Python程序中语句的缩进规则？
对于类定义、函数定义、流程控制语句、异常处理语句等，行尾的冒号和下一行的缩进，表示下一个代码块的开始，而缩进的结束则表示此代码块的结束。通常情况下都是采用4个空格长度作为一个缩进量(一个Tab键就表示4个空格)。和其他程序设计语言(如Jav
Python字符串转换整数 (atoi)
实现 atoi，将字符串转为整数。提示：仔细考虑所有输入情况。如果你想挑战自己，请不要看下面并自己考虑所有可能的输入情况。说明：这题解释的比较模糊（即没有指定输入格式）。你得事先汇集所有的输入情况。 atoi的要求：这
如何在Hadoop环境下搭建Python？
搭建 Python 环境在 Hadoop 上的步骤如下：安装 Hadoop：在你的计算机上安装 Hadoop。安装 Python：请确保你的计算机上已经安装了 Python。配置 Hadoop 环境：编辑 Hadoop 的配置文件，以确
做网络爬虫，python 的多线程，异步和 node.js 的异步哪个好
读取用gevent pool + requests 数据抽取用gevent threadpool + lxml (lxml会释放GIL)多线程快是因为局域网速度快。你到公网试试就知道了在 Python 中定义 Celery 的时候，我们要
python中sort是什么意思
python中sort()函数用于对原列表进行排序,如果指定参数,则使用比较函数指定的比较函数。列表有自己的sort方法，其对列表进行原址排序，既然是原址排序，那显然元组不可能拥有这种方法，因为元组是不可修改的。Python由荷兰数学和计算

推荐阅读

热门文章

最新发布

标签列表

如何用python爬虫直接获取被js修饰过的网页Elements？

给您推荐相同类型的内容：