如何用python爬取js动态生成内容的页面

2023-05-02 02:55:02JavaScript0154

如何用python爬取js动态生成内容的页面,第1张

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

这个方法只是获取页面源码；你的要求是获取DOM结构；

有一个方式，使用lxml库，先使用selenium获取整个html的DOM，再把Dom转存到lxml对象，这样的方式可以获取到正html Dom tree,下面例子：

def parse_from_unicode(unicode_str): #html DOM tree to lxml 格式

utf8_parser = lxml.etree.HTMLParser(encoding='utf-8')

s = unicode_str.encode('utf-8')

return lxml.etree.fromstring(s, parser=utf8_parser)

def parse(request):

driver = webdriver.PhantomJS()

html =driver.find_element_by_name('html')

lxml_html=parse_from_unicode（html）

kk=lxml_html.xpath('//tr') #使用xpath匹配

对于这种动态加载的网站，建议使用第三方库selenium爬取。

它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

对于主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持，网站上的元素也支持多种选择器，如class、id、xpath等。

但是用习惯以后，对于这种非纯静态页面，离开selenium感觉就完全不会爬虫了。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：css 怎么给div的上部分背景颜色设置为深红色,下部分设置为深红色

# 下一篇：css析颜士橄榄精华的主要成分 css析颜士橄榄精华适合什么肤质

给您推荐相同类型的内容：

学习电脑要学些什么软件？
学习电脑需要学习什么软件呢？我们首先了解一下大家用电脑普遍是要干什么，再来分析需要学习的软件。第一，学习电脑是为了干什么？1.学习电脑是为了办公的时候用。2.学习电脑是为了娱乐。3.学习电脑是为了专业发展。第二，学习电脑需要学习的软件1.如
php程序 js判断ip地区根据不同ip输出不同内容(商务通代码)
不建议使用js进行这个处理，你这样做的话完整过程为1. 用户访问php页面2. 服务端输出html3. 浏览器运行js检查ip所属区域4. ajax方式提交区域信息给服务器5. 服务器返回查询结果6. js将查询结果显示到当前页
css 里表单样式
1、按钮的margin-left:-10px这样的负值。或者学度娘，取消input边框另作。2、css里面font-size:16pxfont-family:"Times New Roman",Georgia,Seri
css字体代码
我帮你看了给我分哈这五分不容易啊这CSS代码有点乱.在你网站目录里的defult.css文件，（就是网站CSS文件啦）这个文件拉到最后看到几行看到#page_starlist这个然后就在{后面加上font-size:16px就行了我这16是
军胜辉益电孑秤怎样调成市斤
该型号电子秤的市斤公斤切换功能比较隐蔽，下面我以该系列电子秤为例讲解三种公斤市斤切换方法，三种方法都试一遍，总归有一种是您该称的调节方法。（因为出厂不同批次细节上有所不同缘故所致）。公斤调节市斤方法1：开机归零→依次按1、2、7、6、3、去
景顺量化精选基金000979
1、景顺量化精选基金000979基金为股票型基金,属于证券投资基金中风险程度较高的投资品种,其预期风险和预期收益水平高于货币型基金、债券型基金和混合型基金。本基金将投资港股通标的股票,需承担汇率风险以及境外市场的风险。2、该基金的投资范围包
为什么我用记事本制作html添加不了css样式
1、原来的网页如果是外链的CSS样式表，那么你这新做的肯定就遗失了，样式表是控制表现的最重要的一部分，样式表没了，当然样子大大不同了。 2、原来的网页中插入的图片，如果你没有放在相同的路径，那将全部消失不见了。放图片的地方全成了小叉叉，当然
R语言如何获取网站上的数据
首先打开r语言的命令行编辑窗口先以简单数据为例，在r命令行窗口输入如下代码：data_test&lt-data.frame(c1&lt-c(7,8,9,10,11,12),c2&lt-c(23,36,87,54,15
用js怎么实现一个div显示时间2秒后就自动消失。
首先，需要一个定时器，可以使用JS中的setTimeout() 方法。其次，实现DIV消失，有很多种办法，可以使用$("#div").css('display','none')，
error C2198: 'exit' : too few actual parameters
C语言有默认的exit（）函数，就在你的exit（）里面还调用了一句exit（0），而你所编写的函数却没有参数，发生冲突，所以还是按照crab2313的建议，改个名吧。写函数名的时候一定要注意不要与系统关键字发生冲突C的字符串拷贝函数str
js操作数组，不修改原数组
js数组是引用类型的值，我们直接将原数组赋值给新的变量，由于指针指向同一个内存地址，修改数组，原数组也会被修改。如果不想原数组被修改，可以采用以下方法：此时，再修改copyList的值，不会影响list的值。 es6的Arr
c语言中‘256’
一个256个元素的字符数组，使其第一个元素是 '' ，剩下的元素全部是 0 （注意没有单引号）。实际上这个可以解释为让这个数组所有元素都是0而已。但是注意我刚刚特意拆开解释的原因是：char str[256] = {
java登录页面不能跳转网页显示服务器错误
进行文件重新配置。根据查询相关公开信息显示，java登录页面不能跳转网页显示服务器错误，是文件配置出了问题，在web.xml文件进行文件重新配置即可。Java具有大部分编程语言所共有的一些特征，被特意设计用于互联网的分布式环境。错误代码,是
电脑上怎么打点
1、键盘上的~按键：这种方法最简单，只要把电脑上的输入法转换成中文的输入状态，再按一下键盘左上角的【~】键就可以了。这颗键位于ESC键的下面，数字键1的前面；2、特殊符号输入：有不少输入法都是可以输入特殊符号的，在输入法的状态栏中右键菜单中
Python视频教程，百度云
[python视频教程] lets python视频教程免费下载链接:https:pan.baidu.coms1YYn_vepCtq3CcKBD-vfnuw提取码:dxpn[python视频教程] lets python 视频教
如何用CSS3实现瀑布流效果
1、该效果使用CSS3的column-width实现，和js版的瀑布流不同：图片将纵向排列。2、代码中使用了一小段JS，和瀑布流效果无关，主要用来动态插入元素，并实现模拟翻页举例说明如图：这种瀑布流实现大体有两种方式，一种就是js的方
R语言之基础
向量是 R 语言中最基本的数据类型，在 R 中没有单独的标量（例如 1 本质上是 c(1)）。 R 中可以用 = 或者 &lt- 来进行赋值， &lt-的快捷键是 alt + - 。 R的下标是从1开始的，和py
css析颜士橄榄精华的主要成分 css析颜士橄榄精华适合什么肤质
css析颜士橄榄精华是小小的一瓶，但是很经用的，这款精油官方的介绍的功效是很不错的，看见就想买的感觉，那么css析颜士橄榄精华的主要成分是什么呢。css析颜士橄榄精华的主要成分 css析颜士橄榄精华的成分，有油橄榄叶提取物，α-熊果
机械键盘的轴怎么拆下来啊？
下面给出机械键盘拆轴的方法：所需材料：拔键帽器、拔轴器、机械键盘。一、准备好下图这两个小工具，分别是拔键帽器和拔轴器。二、键盘拆轴首先需要把键帽拆掉，这时使用拔键帽器夹着键帽的两边向上提拉即可取下。三、接着使用拔轴器，把拔轴器的两个尖插
如何用js的open函数在同页面中打开iframe页面
这很好办你只要改变A页面中Iframe的 src就可以啦或者：window.open('b.html','a_iframe')&ltiframe name="a_iframe&q
highlight.js
一行代码就能让我的网站支持代码高亮的工具库，也支持在 Vue 中使用，强烈推荐给大家。 highlight.js 是一款使用 javascript 开发代码高亮工具库，能够让网页上的代码显示接近我们使用的代码编辑器的高亮样式，从而看
C语言关于字符串转化成字符串数组如“123,423,234,546”转成 “123”，“456”，”546“
char str1[]="123,423,234,546"char str2[10][5]sscanf(str1,"%s,%s,%s,%s",str2[0],str2[1],str2[2],str2[
怎么用css控制滚动条只显示右边的不显示下边的滚动条
1、首先让我们创建一个HTML文件。2、通过记事本来编辑，书写上一个HTML的整体结构。3、书写一个div模块。4、接着开始写css代码。5、定义上div的长宽。6、利用overflow属性，来设置是否展示滚动栏。7、打开HTML网页，就已
角度和弧度的转换
在python和Delphi中，牵涉到角度计算时，例如：sin(x),cos(x)等，这里的x都是弧度，而不是直接的角度。因此，在计算对应角度的三角函数时，需要先将角度转换成弧度再计算。弧度和角度的转换公式是：例如：计算90度
R语言把很多矩阵并在一起
这位童鞋你好，其实只需要用到cbind或rbind()函数，就可以将两个matrix或dataframe给合并到一起；其中rbind()为按照行合并，要求二者必须有相同列数，自动往行下面顺延数据；cbind()则是按列合并，必须有相同行数；
用java实现银行排队程序，要求模拟银行的业务排队系统，要有界面，实现完成的排队和叫号
import java.awt.Colorimport java.awt.event.ActionEventimport java.awt.event.ActionListenerimport java.awt.event.WindowAd
c语言中if else的用法
用if语句可以构成分支结构。它根据给定的条件进行判断，以决定执行某个分支程序段。下面我就跟你们详细介绍下c语言中if else的用法，希望对你们有用。c语言中if else的用法如下：C语言的if语句有三种基本形式。语
如何使用CSS在水平线中间添加文字？
如何使用CSS将文字显示在水平线中间？下面本篇文章就来给大家介绍使用CSS实现文字显示在水平线中间效果的方法，希望对大家有所帮助。 CSS提供了在网页中间制作包含文字或图像的水平线以使其具有吸引力的功能，这可以通过使用简单的CSS属性来
R语言画table-三线图
#常规清空，加载包## 读取数据，csv为例， row.names=1 设置的是第一列为数据的名称。 header=T 是指第一行为数据的列名。check.names=F 当你的列名是以数字开头的时候，比如有的时候数据是时间
r语言如何导入excel数据
R语言可以使用read.xlsx()函数来读取excel数据文件，也可以使用read.csv()函数来读取csv格式的数据文件。此外，还可以使用R包RODBC来连接数据库，从而将数据文件存储在数据库中，便于管理和操作。另外，还可以使用R语言

推荐阅读

热门文章

最新发布

标签列表

如何用python爬取js动态生成内容的页面

给您推荐相同类型的内容：