如何用python爬取js动态生成内容的页面

2023-03-04 21:01:01JavaScript029

如何用python爬取js动态生成内容的页面,第1张

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

抓取动态页面有两种常用的方法，一是通过JavaScript逆向工程获取动态数据接口（真实的访问路径），另一种是利用selenium库模拟真实浏览器，获取JavaScript渲染后的内容。但selenium库用起来比较繁琐，抓取速度相对较慢，所以第一种方法日常使用较多。

String url = "http://xinjinqiao.tprtc.com/admin/main/flrpro.do"

try {

WebClient webClient = new WebClient(BrowserVersion.FIREFOX_10)

//设置webClient的相关参数

webClient.getOptions().setJavaScriptEnabled(true)

webClient.getOptions().setCssEnabled(false)

webClient.setAjaxController(new NicelyResynchronizingAjaxController())

//webClient.getOptions().setTimeout(50000)

webClient.getOptions().setThrowExceptionOnScriptError(false)

//模拟浏览器打开一个目标网址

HtmlPage rootPage = webClient.getPage(url)

System.out.println("为了获取js执行的数据线程开始沉睡等待")

Thread.sleep(3000)//主要是这个线程的等待因为js加载也是需要时间的

System.out.println("线程结束沉睡")

String html = rootPage.asText()

System.out.println(html)

} catch (Exception e) {

}

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：JS数组循环遍历常用的9种方法

# 下一篇：GO语言学习系列八——GO函数(func)的声明与使用

给您推荐相同类型的内容：

求助：用js实现表格列宽的更改
在需要更改的表格上添加id或name作为标记，然后添加js事件触发装置或按钮触发js事件后，在js函数中，通过id或name定位表格，如document.getElementById("id")再对表格的样式进行更改 d
JS简单时钟的小白问题
setTimeout定时document.write以后，重新打开输出流，会清空页面内容，包括你以前的代码，简单改了一下：&ltscript&gtfunction tick() { var hours, minutes, s
北大青鸟设计培训：就业季，女性职场充电很重要？
俗话说：男怕入错行，女怕嫁错郎。言外之意，职场是男性的战场，而女性的战场往往就是家庭生活。是这样的吗?21世纪，男女平等，也是人才缺失的时代，职场对于女性来说，也是重要的。但是通常情况，女性在职场上的瓶颈期会更早的到来：1、顾着了工让作，感
华为C语言上机试题
#include &ltstdio.h&gt#include &ltassert.h&gtvoid take_num(const char *strIn, int *n, unsigned int *outA
电脑要怎么设置才能共享打印机?
共享打印机前请确认，共享者的电脑和使用者的电脑是在同一个局域网内。一、在带有打印机的电脑上，将打印机共享出去。第一步、首先，确认与共享打印机相连的电脑处于开机状态，而且已经安装过打印机驱动程序，并且可实现正常打印，对于驱动安装在这里就不讲述
电脑都有什么功能
电脑的主要功能：1、信息管理信息管理是以数据库管理系统为基础，辅助管理者提高决策水平，改善运营策略的计算机技术。信息处理具体包括数据的采集、存储、加工、分类、排序、检索和发布等一系列工作。信息处理已成为当代计算机的主要任务。是现代化管理的基
芭比布朗圣诞迷你炙恋唇膏套装有哪些颜色
在我们平时的日常生活中经常可以看到有很多人喜欢使用芭比布朗的化妆品，芭比布朗旗下有很多好用的化妆品，口碑一直很不错，芭比布朗圣诞迷你炙恋唇膏套装有很多热门色号。芭比布朗圣诞迷你炙恋唇膏套装有哪些颜色包含五款炙恋唇膏的热门色号，从上至
如何设计结构清晰的 Python 工程目录结构
1. 使用专业的项目构建发布工具来构建项目目录. 如 buildout . 其目录结构绝对比自己创建来的漂亮.2. log目录最好不要放到项目里3. 缺少 setup.py4. 缺少 requirements.txt如果你在 Mac OS
ruby什么意思
Ruby，一种为简单快捷的面向对象编程（面向对象程序设计）而创的脚本语言在20世纪90年代由日本人松本行弘开发，它的灵感与特性来自于 Perl、Smalltalk、Eiffel、Ada 以及 Lisp 语言，因为Perl发音与6月诞生石pe
用js怎么写一个回车键盘事件
一、设计思路：设计一个简单的输入对话框，然后按下enter进行输入事件。二、聊天输入框的代码如下：三、此时的页面展示如下：四：设计函数，使得输入文字时，按下按钮可以提交到聊天框。五、此时在页面上测试，输入一段文字：六、执行结果如下：七、设
C语言哈希表
#include "iostream.h" #include &ltiostream&gt#include "string.h" #include "fstream&quo
《Go程序设计语言中文版》pdf下载在线阅读全文，求百度网盘云资源
《Go程序设计语言中文版》百度网盘pdf最新全集下载:链接：https:pan.baidu.coms1K2XHYlNbRyQMiBkckaPr7A?pwd=0cii 提取码：0cii简介：本书由《C程序设计语言》的作者Kernig
请教在线文档的api
Android中文版api手册地址：http:www.matools.comapiandroidAnt最新版api手册地址：http:www.matools.comapiantASM字节码操作api手册地址：http:
C语言链表中q->next=p;表示什么意思?
q-&gtnext = p表示将节点p加入到节点q之后。意思：使当前指针指向链表的下一个结点。一般作用在数据结构中的单链表里由应用，语句中的p一般指向一个结构体类型的数据，此类型的数据通常表示节点；结构体里存放的一些数据和记录下
电脑常见的散热方法有哪些
.գ热就所采用的方式来说，可以分为两种，被动散热和主动散热，在主动散热中依据所采用的散热方式而言又分为风冷散热、水冷散热、液冷散热、热管散热器散热、半导体致冷片散热、压缩机辅助散热和液氮散热等几种。1.散热片被动散热所谓被动散热，也
怎样防止电脑自动安装软件
1、以WIN7系统为例，在电脑桌面使用快捷键win键+r唤出运行窗口，在搜索框中输入services.msc，然后点击回车键登入。iknow-pic.cdn.bcebos.comd52a2834349b033b29861c2c1bce3
HTML5解决了电子商务中的有什么问题?
html5解决的不是电子商务中的问题，而是移动端问题。电子商务只是运用这个HTML5技术。HTML5是构建Web内容的一种语言描述方式。HTML5是互联网的下一代标准，是构建以及呈现互联网内容的一种语言方式．被认为是互联网的核心技术之一。
电脑屏幕变的很蓝怎么回事？
这是显示器变色，大多数原因是显示器和电脑的连线造成的，因为有一根线接触有问题就会这样可以试着看是否与主机的连线松了。再看接口的针有没有歪。如果都没有问题，一般是显示器坏了，其实是显卡也会引起。显示器的接线头接触不好，通过手摆动显示器连接线，
java 下载功能
下载功能实际上就是将远程服务器的文件流通过ftp功能转换为本地文件流进行存储。举例： ** *下载并解压文件 * * @param localFilePath * @param fileName * @param routeFilepat
求助，didadee请进：吉隆坡转机,亚航行李运费及停泊岛码头住宿
1.转机时间不够，因为新加玻和吉隆玻的航班经常晚点，所以多预留时间比较合适，而且你是国际航班抵达，需要办理入境手续和过境签证手续。2.KL的地图可以点我用户名，选择”照片“可以看到3.亚航的随身行李允许带不超过7公斤，托运行李都是要算钱的，
css滚动标记及背景音乐的使用
1.网络中使用最多的图片格式有哪些JPEG,GIF,PNG,最流行的是 jpeg 格式，可以把文件压缩到最小在 ps 以jpeg 格式存储时，提供 11 级压缩级别2. 请简述 css 盒子模型一个 css 盒子从外到内可以分成四个部分：
Go语言中的符号"<<"是什么意思，什么操作符？
左移运算符（&lt&lt）将一个运算对象的各二进制位全部左移若干位（左边的二进制位丢弃，右边补0）。例：a = a &lt&lt2 将a的二进制位左移2位，右补0，左移1位后a = a * 2若左移时舍弃的高
Go语言排序与搜索切片
Go语言标准库中提供了sort包对整型，浮点型，字符串型切片进行排序，检查一个切片是否排好序，使用二分法搜索函数在一个有序切片中搜索一个元素等功能。关于sort包内的函数说明与使用，请查看 https:godoc.orgsort
苹果电脑电池如何保养
问题一：苹果笔记本电池怎么保养苹果笔记本使用的是锂电池，所以，正常使用就可以的，不要相信什么满充满放的说法，那都是针对原来镍电池的做法，锂电池只要正常使用，不会有什么问题的。而且，苹果笔记本的电池，由于设计的关系，是不太容易取出，
如何在windows下安装GIT
本文在Windows7下测试成功。安装和设置Git下载Git for Windows，采用默认安装，安装完成后就可以在本地使用Git了。但要将内容放到Github上，必须先在Github网站上注册个账户，然后在本机使用Git创建SSH Ke
电脑版微信怎么才能视频
电脑版微信视频聊天方法如下：1，用户下载安装或更新最新版的微信PC版之后，按照系统提示进行手机确认登录电脑版微信。2，用户进入到PC版微信的主界面后，点击选择一位你想要进行视频聊天的用户，进入到聊天界面后，点击下图红色箭头所指处的视频聊天
电脑宽带连接不上是什么原因？
电脑宽带连接不上是什么原因？电脑连不上网怎么回事?相信大家在使用电脑过程中都会遇到这样的问题，那么电脑连不上网怎么回事?下面详细的介绍一下台式电脑和笔记本连不上网的解决办法。一、台式电脑提示无法联网关于电脑连不上网怎么回事的问题，在“Int
南京图书馆地址在哪?可以免费借书吗？
南京图书馆通讯地址和乘车路线地址：南京市中山东路189号邮编：210018。乘车路线：29、44、65、95、304、游1、游2到总统府站，下车即到达。1、5、9、25、163、地铁2号线到大行宫站，下车步行2～3分钟即到达。2、南京图
【接口测试】Go语言进行简单的接口测试
在正常的测试中，当我们需要进行接口测试时，通常使用接口调试工具，如postman进行接口测试目前我在尝试使用Go语言进行接口测试，使用的库均为Go自带的库。注：当前采用的接口为时事新闻接口，每天可以请求100次，需要的同学，可
JS树结构数据的遍历
title: JS树结构数据的遍历 date: 2022-04-14 description: 针对项目中出现树形结构数据的时候，我们怎样去操作他项目中我们会经常出现对树形结构的遍历、查找和转换的场景，比如说DOM树、族谱、社

推荐阅读

热门文章

最新发布

标签列表

如何用python爬取js动态生成内容的页面

给您推荐相同类型的内容：