如何用python爬取js动态生成内容的页面

2023-05-02 02:55:02JavaScript026

如何用python爬取js动态生成内容的页面,第1张

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

这个方法只是获取页面源码；你的要求是获取DOM结构；

有一个方式，使用lxml库，先使用selenium获取整个html的DOM，再把Dom转存到lxml对象，这样的方式可以获取到正html Dom tree,下面例子：

def parse_from_unicode(unicode_str): #html DOM tree to lxml 格式

utf8_parser = lxml.etree.HTMLParser(encoding='utf-8')

s = unicode_str.encode('utf-8')

return lxml.etree.fromstring(s, parser=utf8_parser)

def parse(request):

driver = webdriver.PhantomJS()

html =driver.find_element_by_name('html')

lxml_html=parse_from_unicode（html）

kk=lxml_html.xpath('//tr') #使用xpath匹配

对于这种动态加载的网站，建议使用第三方库selenium爬取。

它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

对于主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持，网站上的元素也支持多种选择器，如class、id、xpath等。

但是用习惯以后，对于这种非纯静态页面，离开selenium感觉就完全不会爬虫了。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：css 怎么给div的上部分背景颜色设置为深红色,下部分设置为深红色

# 下一篇：css析颜士橄榄精华的主要成分 css析颜士橄榄精华适合什么肤质

给您推荐相同类型的内容：

php程序 js判断ip地区根据不同ip输出不同内容(商务通代码)
不建议使用js进行这个处理，你这样做的话完整过程为1. 用户访问php页面2. 服务端输出html3. 浏览器运行js检查ip所属区域4. ajax方式提交区域信息给服务器5. 服务器返回查询结果6. js将查询结果显示到当前页
jquery怎么获取当前标签下的子标签
1、查找子元素方式1：&gtx0dx0a例如：var aNods = $("ul &gta")查找ul下的所有a标签x0dx0a2、查找子元素方式2：children()x0dx0a3、查找子
js逆向能干嘛？
js逆向能做什么？JavaScript 脚本语言由于其效率高、功能强大等特点，在表单数据合法性验证、网页特效、交互式菜单、动态页面、数值计算等方面获得广泛的应用，甚至出现了完全使用JavaScript编写的基于Web 浏览器的类Unix 操
网站所有图片变黑白采用什么技术?
19全国哀悼日，网站变黑白的代码在网页css代码里加入html { filter:progid:DXImageTransform.Microsoft.BasicImage(grayscale=1)}网页变黑白。如果网站没有使用CSS，可以在
求一段鼠标滑过或者点击一张图片，然后在它旁边就会弹出一个框的代码，感谢！
完整的例子。其于JQ做的。复制代码打开。&lt!DOCTYPEhtml&gt&lthtml lang="zh-cn"&gt&lthead&gt&ltmeta c
js操作数组，不修改原数组
js数组是引用类型的值，我们直接将原数组赋值给新的变量，由于指针指向同一个内存地址，修改数组，原数组也会被修改。如果不想原数组被修改，可以采用以下方法：此时，再修改copyList的值，不会影响list的值。 es6的Arr
C语言中求N个数的和。
一、算法：1 输入N；2 循环输入N个数值；3 将每个数值累加到结果上；4 循环结束后输出结果。二、代码：#include &ltstdio.h&gtint main(){ int N, s=0, n
highlight.js
一行代码就能让我的网站支持代码高亮的工具库，也支持在 Vue 中使用，强烈推荐给大家。 highlight.js 是一款使用 javascript 开发代码高亮工具库，能够让网页上的代码显示接近我们使用的代码编辑器的高亮样式，从而看
R语言画table-三线图
#常规清空，加载包## 读取数据，csv为例， row.names=1 设置的是第一列为数据的名称。 header=T 是指第一行为数据的列名。check.names=F 当你的列名是以数字开头的时候，比如有的时候数据是时间
如何使用CSS在水平线中间添加文字？
如何使用CSS将文字显示在水平线中间？下面本篇文章就来给大家介绍使用CSS实现文字显示在水平线中间效果的方法，希望对大家有所帮助。 CSS提供了在网页中间制作包含文字或图像的水平线以使其具有吸引力的功能，这可以通过使用简单的CSS属性来
css字体代码
我帮你看了给我分哈这五分不容易啊这CSS代码有点乱.在你网站目录里的defult.css文件，（就是网站CSS文件啦）这个文件拉到最后看到几行看到#page_starlist这个然后就在{后面加上font-size:16px就行了我这16是
机械键盘的轴怎么拆下来啊？
下面给出机械键盘拆轴的方法：所需材料：拔键帽器、拔轴器、机械键盘。一、准备好下图这两个小工具，分别是拔键帽器和拔轴器。二、键盘拆轴首先需要把键帽拆掉，这时使用拔键帽器夹着键帽的两边向上提拉即可取下。三、接着使用拔轴器，把拔轴器的两个尖插
最短路径算法
最短路径的算法主要有三种：floyd算法、Dijkstra算法、Bellman-Ford(贝尔曼-福特)一、floyd算法基本思想如下：从任意节点A到任意节点B的最短路径不外乎2种可能，1是直接从A到B，2是从A经过若干个节点X到B。所
css析颜士橄榄精华的主要成分 css析颜士橄榄精华适合什么肤质
css析颜士橄榄精华是小小的一瓶，但是很经用的，这款精油官方的介绍的功效是很不错的，看见就想买的感觉，那么css析颜士橄榄精华的主要成分是什么呢。css析颜士橄榄精华的主要成分 css析颜士橄榄精华的成分，有油橄榄叶提取物，α-熊果
R语言之基础
向量是 R 语言中最基本的数据类型，在 R 中没有单独的标量（例如 1 本质上是 c(1)）。 R 中可以用 = 或者 &lt- 来进行赋值， &lt-的快捷键是 alt + - 。 R的下标是从1开始的，和py
vue入门 | 使用vue.js2.0 + ElementUI开发后台管理系统详细教程（一）
项目首页由顶部导航栏，左侧导航栏，中间内容区构成，如图在app.vue引入element-ui，然后就可以在其他任何页面中使用了将app.vue改为以下内容https:[email protected]
JS中节流和防抖函数的实现和区别
在前端开发中，经常和 DOM 、 BOM 打交道，例如：窗口的resize、scroll，输入框内容校验，按钮点击等等操作时，如果事件处理函数调用的频率无限制，会加重浏览器的负担，导致用户体验非常糟糕。此时我们可以采用 throttle（
为什么我用记事本制作html添加不了css样式
1、原来的网页如果是外链的CSS样式表，那么你这新做的肯定就遗失了，样式表是控制表现的最重要的一部分，样式表没了，当然样子大大不同了。 2、原来的网页中插入的图片，如果你没有放在相同的路径，那将全部消失不见了。放图片的地方全成了小叉叉，当然
景顺量化精选基金000979
1、景顺量化精选基金000979基金为股票型基金,属于证券投资基金中风险程度较高的投资品种,其预期风险和预期收益水平高于货币型基金、债券型基金和混合型基金。本基金将投资港股通标的股票,需承担汇率风险以及境外市场的风险。2、该基金的投资范围包
java登录页面不能跳转网页显示服务器错误
进行文件重新配置。根据查询相关公开信息显示，java登录页面不能跳转网页显示服务器错误，是文件配置出了问题，在web.xml文件进行文件重新配置即可。Java具有大部分编程语言所共有的一些特征，被特意设计用于互联网的分布式环境。错误代码,是
电脑上怎么打点
1、键盘上的~按键：这种方法最简单，只要把电脑上的输入法转换成中文的输入状态，再按一下键盘左上角的【~】键就可以了。这颗键位于ESC键的下面，数字键1的前面；2、特殊符号输入：有不少输入法都是可以输入特殊符号的，在输入法的状态栏中右键菜单中
r语言如何导入excel数据
R语言可以使用read.xlsx()函数来读取excel数据文件，也可以使用read.csv()函数来读取csv格式的数据文件。此外，还可以使用R包RODBC来连接数据库，从而将数据文件存储在数据库中，便于管理和操作。另外，还可以使用R语言
C语言关于字符串转化成字符串数组如“123,423,234,546”转成 “123”，“456”，”546“
char str1[]="123,423,234,546"char str2[10][5]sscanf(str1,"%s,%s,%s,%s",str2[0],str2[1],str2[2],str2[
c语言中一条竖线是什么符号?
“|”在C语言中表示按位或，是双目运算符。其功能是参与运算的两数各对应的二进位（也就是最后一位）相或。只要对应的二个二进位有一个为1时，结果位就为1。参与运算的两个数均以补码出现。例如：13|17可写算式如下：扩展资料：1、位运算：整
不是计算机专业能学python吗
可以学的。很多从事计算机行业的人员本身学校的专业并不是计算机专业的，都是后来自学的各类编程语言和技术。如果感兴趣，当然可以学习python了。而且本身python语法简单易上手，是门很好的语言。第一：看入门类书籍关于书籍的选择，难易度一定要
学习电脑要学些什么软件？
学习电脑需要学习什么软件呢？我们首先了解一下大家用电脑普遍是要干什么，再来分析需要学习的软件。第一，学习电脑是为了干什么？1.学习电脑是为了办公的时候用。2.学习电脑是为了娱乐。3.学习电脑是为了专业发展。第二，学习电脑需要学习的软件1.如
R语言——列表
前一段工作太忙了，终于又有时间来继续学习了列表就是一些对象（或成分，component）的有序集合。列表允许整合若干（可能无关）对象到单个对象名下。也就是说，某个列表中，可能是托干个向量、矩阵、数据框，甚至是其他列表的组合。函数lis
如何用CSS3实现瀑布流效果
1、该效果使用CSS3的column-width实现，和js版的瀑布流不同：图片将纵向排列。2、代码中使用了一小段JS，和瀑布流效果无关，主要用来动态插入元素，并实现模拟翻页举例说明如图：这种瀑布流实现大体有两种方式，一种就是js的方
c语言中if else的用法
用if语句可以构成分支结构。它根据给定的条件进行判断，以决定执行某个分支程序段。下面我就跟你们详细介绍下c语言中if else的用法，希望对你们有用。c语言中if else的用法如下：C语言的if语句有三种基本形式。语
用js怎么实现一个div显示时间2秒后就自动消失。
首先，需要一个定时器，可以使用JS中的setTimeout() 方法。其次，实现DIV消失，有很多种办法，可以使用$("#div").css('display','none')，

推荐阅读

热门文章

最新发布

标签列表

如何用python爬取js动态生成内容的页面

给您推荐相同类型的内容：