如何用python爬取js动态生成内容的页面

2023-02-21 03:41:02JavaScript023

如何用python爬取js动态生成内容的页面,第1张

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

一、查看相应的js代码，用python获取原始数据之后，模仿js编写相应的python代码。

二、通过接口api获得数据，直接使用python获取接口数据并处理。

三。终极方法。使用 Selenium和PhantomJS执行网页js代码，然后再获取数据，这种方法100%可以获取数据，确定就是速度太慢。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：wed 是什么啊？求解

# 下一篇：css 变量哪些浏览器支持

给您推荐相同类型的内容：

css手册总结（二）
分拆纵向独立属性。为元素设置上、下外边距。分拆横向独立属性。为元素设置上、下外边距。分拆独立属性。为元素单独设置上、右、下、左4个方向的内边距。属性值描述:1.阴影类型：此参数可选，默认的投影方式是
css单位 px，百分比，rem，em，vw和vh 区分
有两种类型的长度单位：相对和绝对 px就是pixel（像素）的缩写，绝对单位，相对长度单位，相对于屏幕分辨率。 em是相对单位，参考物是父元素的font-size，具有继承的特点。浏览器默认字体是16px，整个页面
JAVA子类构造方法
首先指出一点不足：构造方法最好是指明访问权限。一般是public的，如果是不想被外界调用可以设置为private的比如以后你会学到设计模式中的单例模式，或者是protected只允许本类本包和子类调用，如果什么都不写就像你的例子中那样默认是
我很想学习java
1、怎样才能学好首先你必须想学好，再一个就是有耐心，别怕遇到困难，心平气和。 2、什么样的人才能学好对编程有天赋的人，或对编程很有兴趣的人，或态度认真积极努力的人，或必须要学，而不得不学的人，或者你以前精通其他编程语言并很有经验的人，等
电脑图标倒置了怎么办？
当出现电脑桌面倒过来了的情况时，最快捷的恢复方法是按键盘上的“Ctrl+Alt+(方向上键)”即可恢复桌面方向。第二种方法是，右击“桌面”，选择“屏幕分辨率”项然后在弹出的窗口中就可以设置“屏幕方向”，此时只需要设置为“横向”即可。第三种方
c语言switch括号里有逗号怎么运算
把逗号当顺序点用，结合顺序是从左至右，用来顺序求值，完毕之后整个表达式的值是最后一个表达式的值。main(） {int a,s,ds=2d=3a=12+(s+2,d+4)}先算括号内的值：s+2=4，d+4=7；括号内应为（4,7），括号内
java如何获取文件信息？
File 类是对文件和文件夹的抽象，包含了对文件和文件夹的多种属性和操作方法。File类的常用方法如下表：返回方法说明StringgetName获取文件名称StringgetParent获取文件的父路径字符串StringgetPath获取文
怎么用js做一个地区选择控件的特效啊
1.首先写一个js文件，areaLocation.js:varprovinceArray=newArray()provinceArray=[{"pname":"江苏","country&qu
W7系统怎么查看电脑配置
win7系统可以在电脑的设备管理器中查看电脑配置。1、同时按住键盘上的“win”键+“R”键打开运行窗口，在运行窗口中输入“control”并按回车键打开控制面板：2、进入控制面板后，点击控制面板里面的“系统”按钮：3、在系统窗口中点击窗
JS 退出登录，清除localStorage、sessionStorage
localStorage、sessionStorage操作localStorage PC浏览器（永久保存） sessionStorage PC浏览器（关闭窗口就删除数据）操作1、localStorage.setItem
CSS如何嵌入到HTML中？
CSS通过内联、外联等样式嵌入到HTML中。1、使用样式表的处理指令语句在HTML文档的开头部分写一个关于样式表的指令处理语句复制代码代码如下:&lt?xml-stylesheet type="textcss&q
r语言求平均值
1.导入数据install.packages('xslx')library(xlsx)Sys.setlocale("LC_ALL", "zh_cn.utf-8")a=read.xl
JVM中常量池存放在哪里
java8之前： java8之后：元数据区 Metaspace 由于 PermGen 内存管理的效果远没有达到预期，所以JCP已经着手去除PermGen的工作。在JDK7中，字符串常量已经从永久代移除。现今 JDK8 中 PermG
python程序设计,输出python is good怎么做？
Python输入输出可以使用inputprint来实现，可参考如下：1. input输入input()接受表达式输入，并把表达式的结果赋值给等号左边的变量# eg1：#从外部获取变量的值#等待输入，输入的内容保存到tempstr
电脑怎样连接wifi步骤
电脑连接wifi需要打开电脑的Wlan设置，以下是Win10电脑l连接Wifi的方法：1、在电脑桌面右键点击左下角的开始菜单键，选择菜单栏中的”搜索“选项。2、在菜单栏中点击”搜索“选项，弹出搜索输入框。在输入框中输入“wifi”。按“E
js逆向能干嘛？
js逆向能做什么？JavaScript 脚本语言由于其效率高、功能强大等特点，在表单数据合法性验证、网页特效、交互式菜单、动态页面、数值计算等方面获得广泛的应用，甚至出现了完全使用JavaScript编写的基于Web 浏览器的类Unix 操
怎么使用CSS实现轮播图
轮播图是互联网最常见到的一个元素，不论是PC端还是移动端，或者是APP，我们都会经常遇到，对于前端工程师来说，轮播图的实现都是前端开发中的基本操作，实现起来并没有那么困难。前端工程师实现轮播图有好多种方式，有的喜欢使用自己编写的脚本，
css 标题文字前面加小图标，如何使它们不错位？
两种方法：一、把小图片当做h3的背景来调即：.menubar h3{font-size: 14pxfont-weight: boldtext-align: leftmargin:0background:url(123.jpg) no-rep
前端初学者怎样才能熟练地运用好html+css？
对于前端初学者来说，html+css是入门前端最基础的内容，要学好并熟练运用html+css可从以下几点出发：1.结合html+css+Photoshop，学会如何切割页面。所谓切图是指将设计稿切成便于制作成页面的图片，并完成html+cs
电脑怎样还原系统
1、先打开我们的电脑，然后点击电脑桌面左下角的开始按钮；2、然后我们点击设置；3、之后我们点击更新和安全；4、然后我们点击恢复；5、之后我们可以看到重置此电脑，我们需要点击下方的开始；6、弹出的界面，我们点击删除所有内容，这样就可以还原系统
美国杜克大学助学金的申请流程
美国杜克大学助学金申请全面解析。赴美国留学，怎样申请杜克大学助学金，申请助学金有哪些步骤呢?下面86专家就为大家详细介绍美国杜克大学助学金申请全面解析。在杜克大学你得到的助学金额是和你家庭总收入有关系的。( 以下都是以美
R语言write.table函数导出为.csv的问题
问题：使用 write.table 函数导出数据为.csv格式时，数据全部放入了一个单元格里。1、使用R语言（RStudio）运行read.csv()读取数据，发现代码运行出错，如图所示。2、输入View(x)却发现数据的
js数组几种常见的操作方法
关于js数组的用法有很多，下面主要针对一些简单的操作，比如合并，反转，添加删除等简单的操作总结一下。关于js数组的用法有很多，下面主要针对一些简单的操作，比如合并，反转，添加删除等简单的操作总结一下。第一：读取数组 for循环方法如下
C语言编译问题静态链接
静态链接相当于你把静态库也加到二进制文件里面去了。动态的话，只是指明了需要什么动态库，这个库在什么位置。你换一台机器的话，编译静态库的二进制文件是可以执行的。动态库的二进制文件则需要对应目录有需要的动态库才可以执行。多个程序都编译同一个静态
电脑桌面图标隐藏了怎么恢复正常
电脑桌面图标隐藏了恢复正常的方法：准备材料：联想拯救者y7000p、Windows10、电脑控制面板1、首先我们打开电脑控制面板，在点击系统。2、然后在系统界面点击左边的高级系统设置。3、接着在系统属性界面点击高级，在点击设置。4、在
CSS 命令微信公众平台自适应屏幕大小
下面就告诉大家如何解决。 1. 使用HTML中的viewport来实现viewport语法如下：HTML代码&lt!--在html代码的&lthead&gt...&lthead&gt中嵌入
js和css有什么区别
js和css的区别就是，是两个完全不同的东西；js全称是javascript，就是一种脚本语言，用来网页上面的动态交互等；css是级联样式表（Cascading Style Sheet），就是用这种语言来控制网页元素的表现形式的一种描述性语
JS 的时间格式
一直被各种时间格式困扰，所以这次来总结一下常用的时间格式到底有哪些，它们之间如何互相转换。ISO Date "2015-03-25"国际标准Short Date"03252015&
css，制作电影显示页面排版问题
.field-name-field-gener,.field-name-field-runtime,.field-name-field-vote,.field-name-field-years这4个封装在一个层里面，然后再设置:.影片图片c
国内有哪些前端开发牛人？
目前随着科技的发展，国家的进步，各行各样涌现出了许许多多的人才与前段开发牛人今天就介绍一些行业的前段开发牛人avaScript语言：周爱民、老赵、玉伯、hax,月影、CatChen, winter, 白露飞等等DOM 和浏览器兼容性：w

推荐阅读

热门文章

最新发布

标签列表

如何用python爬取js动态生成内容的页面

给您推荐相同类型的内容：