如何用python爬取js动态生成内容的页面

2023-02-19 12:45:02JavaScript034

如何用python爬取js动态生成内容的页面,第1张

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

String url = "http://xinjinqiao.tprtc.com/admin/main/flrpro.do"

try {

WebClient webClient = new WebClient(BrowserVersion.FIREFOX_10)

//设置webClient的相关参数

webClient.getOptions().setJavaScriptEnabled(true)

webClient.getOptions().setCssEnabled(false)

webClient.setAjaxController(new NicelyResynchronizingAjaxController())

//webClient.getOptions().setTimeout(50000)

webClient.getOptions().setThrowExceptionOnScriptError(false)

//模拟浏览器打开一个目标网址

HtmlPage rootPage = webClient.getPage(url)

System.out.println("为了获取js执行的数据线程开始沉睡等待")

Thread.sleep(3000)//主要是这个线程的等待因为js加载也是需要时间的

System.out.println("线程结束沉睡")

String html = rootPage.asText()

System.out.println(html)

} catch (Exception e) {

}

String url = try {WebClient webClient = new WebClient(BrowserVersion.FIREFOX_10) //设置webClient的相关参数webClient.getOptions().setJavaScriptEnabled(true) webClient.getOptions().setCssEnabled(false) webClient.setAjaxController(new NicelyResynchronizingAjaxController()) //webClient.getOptions().setTimeout(50000) webClient.getOptions().setThrowExceptionOnScriptError(false) //模拟浏览器打开一个目标网址HtmlPage rootPage = webClient.getPage(url) System.out.println("为了获取js执行的数据线程开始沉睡等待") Thread.sleep(3000)//主要是这个线程的等待因为js加载也是需要时间的System.out.println("线程结束沉睡") String html = rootPage.asText() System.out.println(html)} catch (Exception e) {}

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：HTML+CSS时间轴？

# 下一篇：常见的主板品牌有哪些

给您推荐相同类型的内容：

台式机老旧需要换新，帮忙看一下都换什么？
台式机老旧，主机配件换新，需要换的硬件有：主板。CPU。内存条（建议使用大于4G的内存）。电源（根据实际老旧程序考虑）。硬盘（较老的硬盘可能容量较小或者存在不同程度的坏道，影响运行速度。显卡：根据电脑用途选择集成显卡或者独立显卡。机箱一般不
如何来查看电脑的登陆记录？
查看电脑的登陆记录的方法：步骤一、这里我们要用到组策略，鼠标依次点击任务栏的“开始---运行”，在运行输入框上输入【gpedit。msc】敲回车键即可打开本地组策略编辑器对话框，步骤二、打开之后，依次点击“计算机配置--管理模板-
怎么在电脑玩手机游戏?
手机游戏怎么弄到电脑上玩？您好直接在电脑上下载一个安卓模拟器就可以在电脑上玩了先到腾讯电脑管家官网下载一个电脑管家然后打开电脑管家——软件管理——安卓游戏——右上角搜索【安卓模拟器】然后下载安装上然后再通过安卓游戏功能，下
电脑如何长截图
、首先打开电脑，点击打开需要截图的页面中。然后在键盘上找到“prtscsysrp”的按键，然后按下键盘上的“prtscsysrp”就可以快速截屏。然后就会自动保存到默认的文件夹中。电脑长截图的方法，一般可以直接运用电脑自带的截图功能，首先找
电脑闪退是什么原因?
问题一：电脑软件闪退是为什么。怎么办？ 200分把磁盘重新分区了，换一个系统试过没有。电脑能开机，能进入系统，硬件问题应该不是很有可能，中毒或者系统造成的软件兼容性很有可能。问题二：电脑闪退关机怎么回事开不了机是与您关机前
.js后缀的是什么文件
.JS后缀文件是JavaScript文件，简称JS代码文件JavaScript一种直译式脚本语言，是一种动态类型、弱类型、基于原型的语言，内置支持类型。它的解释器被称为JavaScript引擎，为浏览器的一部分，广泛用于客户端的脚本语言，最
学习电脑最基本的基础是什么？
具体如下：1、计算机的作用，及类型。计算机是一部处理信息的电子设备，是一种帮助人们完成某些任务的工具，计算机具有超人的记忆能力，它能准确大量地存储处理信息，同时还能够方便精确快速的查找信息，它的存储量是人脑无法比似的，它具有思考判断的能
用css如何截取多行文字
用php或者其他的截取吧，css好像只可以隐藏多余的functionmsubstr($str,$start,$len){for($i=0$i&lt$start+$len$i++){$tmpstr=(ord($str[$i])&
电脑显示屏20寸是多少厘米乘多少厘米
该尺寸指的是显示屏的对角线长度，而不是屏幕的长和宽的尺寸，如20英寸的显示屏其反应的是该显示屏对角线折算成厘米就是2.54厘米*20寸=50.8厘米。常见的不论是CRT显示屏还是液晶显示屏所述及的尺寸指的均是对角线的长度。如CRT的显示屏
老电脑升级~显卡该上什么型号的呢？
电源比较好的话，上个GTX560，GTX460, HD6850, HD6870都是可以的虽然说电费多点。但是差价几年都省不回来的要是买功耗低点的新点的显卡，那价格涨了可不止一倍，不怕贵的话，GTX650TI ,GTX750, R7 260X
怎么在电脑上玩微信欢乐斗地主？
1、首先打开斗地主页面，然后会显示三种登录方式，分别是游客登录、微信登录和QQ登录，然后选择微信登录，输入账号密码即可。2、登录成功之后就会出现斗地主的游戏界面，右下角有个比较小的“好友同玩”，根据自己喜好选择喜欢的模式，点开进去房间后
html网页制作教程
html是编程语言之一。下面，我们来看看html网页制作教程吧。 01新建记事本在桌面上，新建一张记事本，如下图所示：02编写代码打开记事本，编写代码，如下图所示：03修改后缀名把记事本修改后缀名为.h
适合小学生用的平板电脑
1、小米平板4Plus小米平板4Plus拥有10.1英寸的大屏，加上窄边框设计，视觉效果很好，很适合喜欢追剧的小伙伴。这款平板电脑的屏幕下方有一个触控式按键，支持指纹识别。更重要的是，它还加入了4GLTE搭载了骁龙660处理器，内置862
常见的主板品牌有哪些
1.华硕电脑主板推荐理由:性能出色，支持PCIe 5.0，相比老款主板，各方面速度大幅提升。华硕tuff gaming b550m-plus wifi ii重炮手主板中国台湾省华硕计算机有限公司是目前全球最大的主板制造商和第三大显卡制
电脑直播需要什么配置
直播用的电脑需要这些配置：1、想流畅直播，cpu显卡，内存，网速，带宽很重要，开游戏直播的配置要求更高，要定位中高端。2、拉最低10m宽带后再考虑电脑配置，不差钱的可以直接用外星人51。3、cpu选择推荐瑞龙AMDRyzen处理器从超
PPT右下角有个功能保持电脑不息屏
PPT没有功能保持电脑不息屏。PPT播放常亮不在PPT中设置，而是需要设置电脑屏幕的发亮时长，一般来说，设置成不休眠即可。电源管理里面设置成永远不休眠就可以了，这样你电脑不管放多久不管做什么都不会休眠，注意下你自己选择的电源模式，然后设置相
CSS 如何实现垂直居中图片弹窗的效果？
在一个容器里再定义一个绝对定位的p容器，再在p容器里放需要垂直居中的图片，图片定义相对定位的CSS。直接上CSS代码：#pic{width:300pxheight:300pxbackground-color:greenborder:6pxs
html中<radio>单选按钮控件标签用法解析及如何设置默认选中
方法有两种。第一种通过&ltselect&gt的属性来设置选中项，此方法可以在动态语言如php在后台根据需要控制输出结果。&ltselect id = "sel" &gt&lt
js如何判断一个数字是正数还是负数
需要准备的材料分别是：电脑、html编辑器、浏览器。1、首先，打开html编辑器，新建html文件，例如：index.html。2、在index.html的&ltscript&gt标签中，输入js代码：var a = 3
Windows电脑系统是专业版旗舰版家庭版哪个内存占用大？
旗舰版占内存最大，但各个版本之间没有太大的差别。win7系统最低配置，1GB内存（基于32 位）或2GB内存（基于64位），运行纯win7系统32位内存不超过1GB，64位系统不超过2GB，1GHz32位或64位处理器，16GB可用硬盘空
电脑怎么扫描图片
电脑上图片怎么扫描1、首先将需要扫描的图片正面向下放在扫描仪的面板上。2、然后点击桌面左下角的开始按钮，在弹出的菜单中点击“设备和打印机”。3、然后在打开的页面中选择扫描仪的设备。4、然后点击“扫描文档或照片”的按钮。5
在JSP页面中怎样导入CSS文件
JSP全名为Java Server Pages，其根本是一个简化的Servlet设计，它是由Sun Microsystems公司倡导、许多公司参与一起建立的一种动态网页技术标准。它是在传统的网页HTML文件中插入Java程序段和JSP标记，
如何引入一个 js文件
新建Javascript 类型的页面，在里面写入相应js 内容保存文件在相应的根目录的js 文件夹下如命名为lead.js在页面中写&ltscript type="textjavascript" src=&q
JS如何在页面中插入HTML代码
步骤1、新建一网页文件“sample.html",用记事本或其它文本编辑软件（如UltraEdit）打开，输入如图所示的HTML代码。该网页文件包括一个蓝色的字符串，一个按钮和一个文本框。2、JS代码可插入到”head"
css是什么意思
css是层叠样式表。层叠样式表，(英文全称：Cascading Style Sheets)，是一种用来表现HTML（标准通用标记语言的一个应用），或XML（标准通用标记语言的一个子集）等文件样式的计算机语言。使用Windows系统自带的记
javascript中一竖怎么打的
1、创建一个名称为 script_text 的html文件。2、添加一个 Script 对象引入js文件设置id为 my_script_id_text,在script加入输出字符串的语句。3、添加一个button按钮，在点击事件中加
win7传真功能怎么用
win7 自带传真软件使用方法：进入“开始”，单击“控制面板”。选择“添加或删除程序”。要开始Windows组件向导单击“添加删除Windows组件”。2.选中该框旁边的“传真服务”下的“组件”列表中。选择“下一步”。3.点击“完成”。选
怎么检查电脑硬件问题
问题一：怎样查看电脑硬件是否正常工作我的电脑属性硬件设备管理器没问号叹号正常问题二：怎么可以检测我的电脑硬件是否有问题？用windows优化大师100%好用用everest，――工具――系统稳定性测试。任务栏下
老电脑如何设置U盘启动
老电脑设置U盘启动的具体操作步骤如下：1、开机快速按F8热键，进入电脑BIOS，界面如下图所示：2、进入BIOS里面，找到红圈标示的Boot选项，选择并点击Boot，如下图所示：3、再使用小键盘方向键选择Hard Disk Drivers
html 怎么设置body的高度
1、在怪异模式下，也就是网页头部不写doctype的时候，body可以作为html元素的根元素，设置它的高度为百分之百的时候（不考虑外边距），可以使的页面的高度和浏览器客户区相同。在标准模式下，也就是网页头部写doctype的时候，body

推荐阅读

热门文章

最新发布

标签列表

如何用python爬取js动态生成内容的页面

给您推荐相同类型的内容：