如何用python爬虫直接获取被js修饰过的网页Elements？

2023-02-21 10:57:02JavaScript017

如何用python爬虫直接获取被js修饰过的网页Elements？,第1张

对于这种动态加载的网站，建议使用第三方库selenium爬取。

它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

对于主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持，网站上的元素也支持多种选择器，如class、id、xpath等。

但是用习惯以后，对于这种非纯静态页面，离开selenium感觉就完全不会爬虫了。

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：js的分页原理以及实现步骤是什么？

# 下一篇：在Ubuntu上写C语言通常用什么编译器

给您推荐相同类型的内容：

js中json数组问题，怎么创建json数组
普通的数组格式是：['a','b','c']JSON的格式是：{'1':'a','2':'b',&#
css经典布局——圣杯布局
圣杯布局和双飞翼布局一直是前端面试的高频考点，圣杯布局的出现是来自由 Matthew Levine 在 2006 年写的一篇文章《In Search of the Holy Grail》。比起双飞翼布局，它的起源不是源于对
js的最大值
遇到的问题：js里调用函数时传入一个值为 72061132320616256 但是alert这个值一直是72061132320616260 因为： js的最大安全值：Number.MAX_SAFE_INTEGER为 9007
电脑如何保存文件
具体操作步骤如下：以Word为例：1、首先打开电脑，点击打开需要编辑的Word。2、然后在新的界面里点击选择“文件”按钮。3、之后在新的界面里点击选择“另存为”按钮。4、然后在新的界面里点击选择需要保存的位置后点击“保存”按钮即可保存文
怎样用CSS样式制作边缘光晕的模糊效果
1、首先新建一个简单的html文件，如图所示。2、然后根据自己的需要，简单的设置一下层宽高和图片样式。3、新建一个用于局部模糊的层，利用绝对定位和z-index使它浮动在图片上面，效果如果所示。4、然后细调css的样式使它达到自己想要的效果
格式工厂怎么用
格式工厂如何使用？1.打开格式工厂应用软件2.选择好你要转换格式的种类，【比如你要转换的是《图片》？《音频》？《视频》？还是要在光驱里将光盘上的音、视频转换？】比方你要转换视频格式那就首先在格式工厂左边《有时在上边，有时在下面》找到
微信小程序里面的js文件算node.js吗
不算。小程序的JavaScript运行环境即不是Browser也不算Node.js。它运行在微信App的上下文中，不能操作DOM，没有window，document，也不能通过Node.js相关接口访问操作系统API。暨官网实现后移动端需支
傲虎音响css怎么调效果最好
您好，傲虎音响CSS的调效果最好的方法是：首先，您需要了解傲虎音响CSS的特性，以及它的调音参数。其次，您需要根据您的音乐风格和喜欢的音色，来调整调音参数，以达到最佳的音效。最后，您可以根据您的音乐风格，来调整音量，音色，音调，以及其他参数
怎么升级电脑中的Flash插件版本
1、点击电脑桌面左下角的开始按钮，在打开的菜单中点击“控制面板”。2、然后将控制面板的“类别”选择为“小图标”。3、在页面中即可看到“flash player”选项，点击该选项。4、弹出“flash player设置管理器”对话框，点击“更
戴尔电脑怎么恢复出厂设置
戴尔电脑一键恢复出厂设置方法如下：工具：机械革命S3 Pro、Windows10。一、首先，启动戴尔电脑，打开windows10电脑系统，在电脑桌面左下角找到“开始”，进入开始菜单。二、然后，在弹出开始菜单中选择“设置”标志，点击打开。
js如何获取图片的尺寸？
项目的需求是上传一张图片，然后验证该图片的尺寸，如果跟预期的不符，就不给上传首先，可以通过new FileReader()，再通过将上传的图片文件传给实例的readAsDataUrl()，当文件加载完成触发onload事件，传递eve
苹果电脑怎么开机
找到开机键，开启苹果电脑只需按下开机键即可。按下电源键苹果电脑就会开机或者解除休眠模式。当苹果电脑开机时，你能听到一声苹果铃声响起，同时你能看到电源键亮起来。新苹果电脑第一次开机注意事项：如果是笔记本电脑，刚入手后，有少部分型号的笔记本
css中导入样式表和链接样式表有什么区别，我不是问语法，而是问内在区别，还有我怎么才能体会到他们的区别
1. link标签是属于xhtml范畴，而@import则是css2.1中特有的。link标签除了可以加载CSS外，还可以做很多其它的事情，比如定义RSS，定义rel连接属性等，@import就只能加载CSS了。 2. 加载的顺序的区别，l
网页导航栏模块设计CSS控制默认第一个LI背影
像上面那种，就是定义ACTIVE属性，使其A的背影带色，每个页植入对应的ACTIVE，比如，首页只植入在第一个LI，第二个页只植入第二个LI。。。另外定义LI属性，使其HOVER的背影跟ACTIVE的背影色一样，这样子移动鼠标时对应的LI就
怎样选购电脑主机？
从外观上看，微型计算机的基本配置是主机箱、键盘、鼠标和显示器4个部分。另外，微型计算机还常常配置打印机和音箱。一台完整的微型计算机系统由硬件系统和软件系统两部分组成。硬件部分完整的计算机系统包括两大部分，即硬件系统和软件系统。所谓硬件，
如何用nodejs快速搭建网站
node.js快速搭建网站可以使用一些web框架1：使用express2：使用koa如果开发工具使用的是webstorm的话，该工具内部就可以创建基于express的项目。可以。安装好node，js和npm后配置好路由，且可以在电脑中正常访
spring 国际化 js怎么设置
一、基于浏览器语言的国际化配置使用Spring的MVC，并且配置中有配置Resource文件 Xml代码以下是引用片段：其中，message-info是你的properties文件的通用名。如：我的配置文件叫 message-info
javascript 页面加载完成后执行
加上defer等于在页面完全在入后再执行，相当于window.onload，但应用上比window.onload更灵活&lt!DOCTYPEhtmlPUBLIC"-W3CDTDXHTML1.0Transitiona
台式电脑风扇怎么安装
1. 电脑风扇怎么安装电脑风扇怎么安装电脑CPU风扇怎么安装？电脑CPU风扇安装步骤：1、准备好CPU风扇，下面我以Intel LGA 1366115X775结构的CPU安装风扇为例。2、把风扇的四个对准主板上
电脑QQ怎么查看登录记录和登录时间？
先登录自己的QQ号在电脑上，登陆后点击左下角的图标。进入安全，安全中心首页。点击查看更多。点击登录记录，你就可以看到你的QQ号最近登录的时间和地点，使用的电脑还是手机，一目了然。点击风险提示，就可以看到自己的账号最近有无异常操作。方法如下
css怎样设置每个单元格颜色不一样
1、新建一个html文件，命名为test.html，用于讲解css如何定义表格内外边框颜色各不相同。2、在test.html文件内，使用table标签创建一个表格，用于测试。3、在test.html文件内，设置table标签的class属性
怎样在css中改变图片格式和形状
图片格式代表的是一种资源类型，css是用来修饰网页展现的css可以通过对控制对图片的宽高或者外层容器的宽高来改变图片大小或者显示部分在css3中图片是可以修饰容器边框的，这也是改变图片的一种形式图片可以作为容器背景，控制背景的显示方式来
css控制html隐藏和显示的属性是什么，两种，区别又是什么
display：none 与 visibility:hiddendisplay是隐藏不占据空间后面的元素会挤到该元素的空间visibility:hidden是隐藏且占据空间也就是说元素还是在的就只是你看不见它而已根据页面的需要有时候
css2要被淘汰了吗？
CSS3是CSS技术的升级版本，CSS3语言开发是朝着模块化发展的。以前的规范作为一个模块实在是太庞大而且比较复杂，所以，把它分解为一些小的模块，更多新的模块也被加入进来。这些模块包括：盒子模型、列表模块、超链接方式、语言模块、背景和
js实现两个下拉框联动
基本方式有以下两种：方式1：给出菜单1的菜单数据，当点击某个菜单项后，把该项的值传给服务端，由服务端返回新的菜单数据到菜单2.方式2：菜单数据静态存储在js或者html元素中，当点击某个菜单项后，直接把相应的菜单数据到菜单2. 源代码你可
JS构造函数到底如何理解
不同于其它的主流编程语言，JavaScript的构造函数并不是作为类的一个特定方法存在的；当任意一个普通函数用于创建一类对象时，它就被称作构造函数，或构造器。一个函数要作为一个真正意义上的构造函数，需要满足下列条件：1、在函数内部对新
ThreeJS简介
近年来web得到了快速的发展。随着HTML5的普及，网页的表现能力越来越强大。网页上已经可以做出很多复杂的动画，精美的效果。但是，人总是贪的。那么，在此之上还能做什么呢？其中一种就是通过WebGL在网页中绘制高性能的3D图形。O
NodeJS 在异步函数（asyncawait）中调用栈打印不全的问题
我在 index.ts 中调用 time-helper.ts 中的 waitForFn()，出错的调用栈是这样的：这个调用栈有啥问题呢？只显示出了 time-helper 模块的文件信息，完全不显示调用者的信息，这样一来，完全
2019年nodejs凉了吗?凉到什么程度了?
没凉。做后端的nodejs的使用场景有限，确实不如java和go，坑多且前人经验总结不如其他语言，但是写业务写工具写脚本写中间层应用，nodejs有自己的优势，可惜也不是独有，上手快是真的（这非常重要）。个人的体会，只代表我自己，如果专
CSS调研得分为各个MOT考核点的平均分是什么意思
MOT（Moment of Truth）——关键时刻。MOT是一个关键指标，是对客户导向的具体衡量，因为对客户而言，他只会记住那些关键时刻——MOT。MOT研究概念满意度研究中有一个非常重要的分支叫做关键时刻（Moment Of Truth

推荐阅读

热门文章

最新发布

标签列表

如何用python爬虫直接获取被js修饰过的网页Elements？

给您推荐相同类型的内容：