如何用python爬取js动态生成内容的页面

2023-02-20 22:05:02JavaScript033

如何用python爬取js动态生成内容的页面,第1张

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

对于这种动态加载的网站，建议使用第三方库selenium爬取。

它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

对于主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持，网站上的元素也支持多种选择器，如class、id、xpath等。

但是用习惯以后，对于这种非纯静态页面，离开selenium感觉就完全不会爬虫了。

不是爬不到

是因为用js生成的网页，是通过浏览器加载js代码之后，由js动态生成的。

用爬虫直接去抓网页的话，抓下来的是原始代码，浏览器还未解析过的内容。

纯 html 的话，抓下来可以直接拿来用，但是如果是由 js 动态生成的网页的话，就没办法直接用了。

像通过js动态加载的网页，理论上如果能用开源的浏览器内核将网页解析出来的话，通过浏览器内核提供的接口，完全可以把网页最终的 html 拿出来

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：电脑音响怎么接线？

# 下一篇：CSS3 如何实现菱形

给您推荐相同类型的内容：

笔记本内存条如何卸下来？
笔记本内存条卸下步骤如下：1、关机断电，把电源，鼠标及其设备都拔了，一般笔记本的内存在背部。2、找到内存条的位置。3、这里就用到十字螺丝刀了，把内存盖板拆了。(注意盖板好卡口)4、内存两边都有弹性卡片。5、用两根手把内存的两个弹性卡片轻轻
css是什么？
css是英文Cascading Style Sheets的缩写。它是一种用来表现HTML（标准通用标记语言的一个应用）或XML（标准通用标记语言的一个子集）等文件样式的计算机语言。CSS目前最新版本为CSS3，是能够真正做到网页表现与内容分
CSS3 如何实现菱形
可以画两个等腰三角形，等腰三角形代码#ID {width: 0height: 0border-left: 50px solid transparentborder-right: 50px solid transparentborder-bo
CSS在线优化工具和在线压缩工具的区别是什么? 求大神。。
CSS的优化通常包括两方面: 格式化CSS和精简CSS。精简CSS的办法是把具有相同属性的元素合并在一起，但这会降低代码的可读性，使代码的后期维护很麻烦，稍不注意就出错。格式化CSS一般就是多行模式或单行模式的选择，比如我个人就完全受不了多
用js写一个函数,计算出字符串的长度
GBK字符集实际长度计算function getStrLeng(str){ var realLength = 0 var len = str.length var charCode = -1 for(var i
电脑屏幕横屏了怎么转换
您可以直接在电脑上使用【Ctrl】+【Alt】+方向键的上或者下快捷键进行调节。也可以在桌面空白处右键选择【图形】-【旋转】选项完成调节。您还可以在右键打开的菜单中选择【属性】-【高级】-【旋转】中调整旋转的角度。1、使用快捷键的方式，【C
在JAVA中线程到底起到什么作用
这是javaeye上非常经典的关于线程的帖子，写的非常通俗易懂的，适合任何读计算机的同学. 线程同步我们可以在计算机上运行各种计算机软件程序。每一个运行的程序可能包括多个独立运行的线程（Thread）。线程（Thread）是一份独立运行的
python中的sklearn中决策树使用的是哪一种算法
sklearn中决策树分为DecisionTreeClassifier和DecisionTreeRegressor，所以用的算法是CART算法，也就是分类与回归树算法(classification and regression tree,C
css设计表格时插入表格的快捷键是什么
css设计表格时插入表格的快捷键是shift+f11。根据相关操作说明显示，Excel表格中的插入单元格快捷键是Ctrl+加号，我们在使用Excel表格的时候还会经常用到很多快捷键，插入表格的快捷键是shift+f11。表格快捷键选定活动单
关于Javascript 特效代码
&ltscript language="JavaScript"&gt&lt!-- Hide the script from old browsers --function compute(obj)
js命名规则
函数命名：统一使用动词或者动词+名词形式 ---- fnInit() 如果有内部函数则“_”开头 _fnInit(). 对象方法命名使用fn+对象类名+动词+名词形式 fnAnimateDoRun() 某事件响应函数命名
网络电视机顶盒怎么连接电脑
很多智能电视盒子都可以直接连电脑显示器看电视，其实方法是很简单的，下面是我给大家整理的一些有关网络电视机顶盒连接电脑的方法，希望对大家有帮助!网络电视机顶盒连接电脑的方法用对应的线将WEBOX的各个接口与电视
Chrome中css失效，F12看到这个css是空白的
你好，看一下这个css路径是否引用正确了。即使css写的不规范或者错误，css只要加载了，代码还是会有的，不会空白的。首先，css规定，每个元素都有display属性，确定该元素的类型，每个元素都有默认的diaplay值，如div的dis
js舞蹈培训机构怎么样？
缴费才三个小时，一节课没上，就要扣40%违约金，这有道理吗？10月8日，市民小王就遇到这样一个经历。她花了6480元，在“JS舞蹈”金牛凯德店报名了舞蹈课程。然而，缴费三个小时后，小王发现自己年底将搬的新家，距离这家机构的分校都比较远，便提
如果快速地给网页添加浮动图文框
&ltiframe frameborder=0 width=170 height=100 marginheight=0 marginwidth=0 scrolling=no src="move-ad.htm"&a
R语言Excel文件
R语言Excel文件Microsoft Excel是使用最广泛的电子表格程序，它是以.xls或.xlsx格式存储数据。 R可以使用某些excel特定的包直接读取这些文件的内容。一些常用的软件包有 - XLConnect，xlsx，gdata
CSS的overflow上下滚动
你的例子中内容的宽度不够，高度有余。虽然overflow:scroll左右，上下滚动条都显示出来了，但是你输入的内容高度不够，所以上下滚动条基本没用。你多输入几行就能看到上下也可以滚动了。如果设置overflow:auto。滚动条就可以自动
怎样将步步高点读机与电脑连？
1、将数据线的插孔更换到电脑主机后面的插口2、点读机器底壳上有一个复位孔，很小，显示reset，用手写笔或平头细物捅一下即可。3、重启电脑，或更换电脑4、检查数据线是否插好，更换数据线。问题一：点读机怎么连接不上电脑亲爱的网友
银行卡bcss.38是什么意思
通常中国银行手机银行app添加银行卡时会出现bcss.38报错，这属于系统错误，可在添加银行卡失败后将手机重启、下载新版本众银行手机银行APP再进行尝试，后续银行卡就可以添加成功正常使用。银行办理的银行卡一般分为借记卡和信用卡，其中借记卡只
JS 判断显示内容请教
写几个div嘛他们的名字分别是 div1 div2 div3然后根据你设置一个东西或是点击，或是其他的$("#div1").show()$("#div2").hide()$("#div3
JS怎么调用API接口
需要准备的材料分别是：电脑、html编辑器、浏览器。1、首先，打开html编辑器，新建html文件，例如：index.html，引入jquery使用。2、在index.html的&ltscript&gt标签中，输入js代码
怎么折纸电脑
方法步骤1将长方形彩纸长边部分上下对折怎么用纸折电脑2再左右对折，继续对折，两次展开怎么用纸折电脑怎么用纸折电脑怎么用纸折电脑再将上面折出的小长方形沿着中间对折一下怎么用纸折电脑中间沿着折出的痕迹往上折出一块，如图怎么用纸折电脑怎么用纸折
Js750双卧轴强制式搅拌机配置参数价格怎样
双轴保温砂浆搅拌机，按物料在料槽中运送方向的不同，可分为相对和相反两种双轴搅拌机。相反双轴搅拌时，两根主轴转向相反，螺旋搅拌刀的旋向也相反，物料沿同一方向并流前进。相对双轴搅拌轴搅拌时，两根主轴转向相反，但螺旋搅拌刀的旋向相同，物料一去一回
js的模块化编程有哪些方式
基础我们首先简单地概述一下，自从三年前Eric Miraglia（YUI的开发者）第一次发表博客描述模块化模式以来的一些模块化模式。如果你已经对于这些模块化模式非常熟悉了，大可以直接跳过本节，从“进阶模式”开始阅读。匿名闭包这是一种让一切变
怎么样学习R语言？
1.初级入门《An Introduction to R》，这是官方的入门小册子。其有中文版，由丁国徽翻译，译名为《R导论》。《R4Beginners》，这本小册子有中文版应该叫《R入门》。除此之外，还可以去读刘思喆的《153分钟学会R》。
联想电脑重置后怎么办
1. 联想电脑恢复出厂设置步骤关机状态下，按一键恢复键所示图标进入一键恢复主界面选择：“从初始备份恢复”可以把系统恢复到出厂状态，单击：“下一步” 点击开始（恢复过程中一定要接电源适配器，如果电池没电会导致一键恢复无法使用
js的重载
问：什么是重载？答：同样的函数，不同样的参数个数。《JS高级程序设计》里是提到过函数是没有重载的，ts中有重载。但是可以根据arguments的长度来实现重载。最后定义的fn将前两个fn覆盖掉，所以没有达到重载的效果
JS处理两个数组，数组A有a，b，c，d四个值数组B有a，c两个值，处理后新的数组为b，d值
以int类型数组对比为例import java.util.ArrayListimport java.util.Listpublic class ABC {public static void main(String[] args) {int
.net是什么语言？
.net是微软新推出的一种编程框架理论。NET语言的全称应该是ASP.NET，是微软新推出的一种编程框架理论或者说是一种编程标准，它可以通过微软出品的Visual Studio 开发工具进行项目开发，应用于网站类的开发一般使用C#语言进行
继母梁婖婷是在第几集还怀了李宗瑞的孩子
梁婖婷是李宗瑞的爸爸新结交的女朋友，她的英文名是peggy，李宗瑞事件爆发以后，世人才知道了这个富家子弟的真实面目，他竟然迷奸了60多位女明星和嫩模们，有几个明星联名把李宗瑞给告上了法庭，这个时候，李宗瑞爸爸的女朋友梁婖婷也站了出来指正李

推荐阅读

热门文章

最新发布

标签列表

如何用python爬取js动态生成内容的页面

给您推荐相同类型的内容：