怎么爬取网页的动态内容，很多都是js动态生

2023-04-30 17:04:03JavaScript0124

怎么爬取网页的动态内容，很多都是js动态生,第1张

抓取动态页面有两种常用的方法，一是通过JavaScript逆向工程获取动态数据接口（真实的访问路径），另一种是利用selenium库模拟真实浏览器，获取JavaScript渲染后的内容。但selenium库用起来比较繁琐，抓取速度相对较慢，所以第一种方法日常使用较多。

我用Jsoup写爬虫，一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。

1、有些页面元素被隐藏起来了->换selector解决

2、有些数据保存在js/json对象中->截取对应的串，分析解决

3、通过api接口调用->伪造请求获得数据

还有一个终极方法

4、使用phantomjs或者casperjs这种headless浏览器

String url = "http://xinjinqiao.tprtc.com/admin/main/flrpro.do"

try {

WebClient webClient = new WebClient(BrowserVersion.FIREFOX_10)

//设置webClient的相关参数

webClient.getOptions().setJavaScriptEnabled(true)

webClient.getOptions().setCssEnabled(false)

webClient.setAjaxController(new NicelyResynchronizingAjaxController())

//webClient.getOptions().setTimeout(50000)

webClient.getOptions().setThrowExceptionOnScriptError(false)

//模拟浏览器打开一个目标网址

HtmlPage rootPage = webClient.getPage(url)

System.out.println("为了获取js执行的数据线程开始沉睡等待")

Thread.sleep(3000)//主要是这个线程的等待因为js加载也是需要时间的

System.out.println("线程结束沉睡")

String html = rootPage.asText()

System.out.println(html)

} catch (Exception e) {

}

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：JS异步操作新体验之 async函数

# 下一篇：什么是JS防水涂料啊?

给您推荐相同类型的内容：

c语言求最大公约数
1、新建一个C语言源程序，这里使用Visual C++6.0的软件：2、从键盘中输入两个正整数a和b。取两个数a,b中的较小值存放到变量n中。从两个数a和b中的较小数开始逐个减小1，寻找能整除a和b的整数，第一个找到的整数即整数a和b的最大
CSS3新特性
1、 [class~=flower] 选择 title 属性包含单词 "flower" 的所有元素。 2、 [class|=box] 选择 lang 属性值以 "box" 开头的所有元素
css3的选择器有哪些？
css3选择器如下：一、通配符选择器（*）通配符选择器是用来选择所有元素，，也可以选择某个元素下的所有元素。二、元素选择器（E）元素选择器，是css选择器中最常见而且最基本的选择器。三、类选择器（.className）类选择器是
如何用css实现半透明遮罩层效果
1 、半透明效果可以使用 css3 中的 opacity 属性，在低版本的IE浏览器中使用IE的alpha 滤镜。代码: .opacity{ opacity:0.3filter: alpha(opacity=30)background-co
网页设计CSS里{word-wrap:break-word;word-break:break-all;}是什么意思
word-break:break-all和word-wrap:break-word都是能使其容器如DIV的内容自动换行。它们的区别就在于：1，word-break:break-all 例如div宽200px，它的内容就会到200px自动换行
js中用for循环语句写等腰三角形代码怎么写
* **************for(var i = 0 i &lt 3 i++){ 0 1 2 4 2 0 for(var j = 0 j &lt 4 - 2 * i j++){
如何查看一个css文件是否引用
CSS文件是无法独立运行的，必须与HTML的代码配合起来才能看到效果的，CSS就是对HTML文件进行样式控制的（包含长，宽，高，色，字体大小等）。查看CSS的文件最简单的可以使用文本编辑器查看。CSS的应用可以分为两种，一种是直接写在HTM
java做报表
把数据库中需要的数据处理后做成可视化图表，根据不同需求可以做成不同形式的图表，节省时间，效果比较好，报表软件国外的话水晶报表，SAP公司的商业报表工具，作为SAP“集团”下的报表组件模块。10年事前盛行一时，后被SAP收购。但水晶报表（Cr
怎样在R语言下编写程序计算∑1n!
#include &ltstdio.h&gtint main() {double sum=0,t=1int i,nscanf("%d",&ampn)for(i=1i&lt=ni++
如何在R语言中使用Logistic回归模型
logit=glm(y~x1+x2,data=data,family=binomial(link='logit'))glm表示广义线性回归，data表示y,x1,x2所在的数据集，family中的link用来选择回归类型
怎么样实现手机控制电脑关机？
现在我们的手机也可以实现遥控电脑关机，实现这个功能借助一个360wifi软体就可以完成了，具体怎么设定呢?下面我给大家讲解一下关于手机控制电脑关机的解决方法，希望大家喜欢!手机控制电脑关机的解决方法点选开启360wifi后，
CSS中设置鼠标悬停效果问题
替换你相对应CSS,和html -----------------CSS----------------------------#dht .list2 spana{ width:89pxheight:33pxdisplay:blockp
电脑是用什么来存储信息的，以什么方式存储？
简单地说：以二进制形式存储信息，在内存中以高电平和低电平存储0和1在外存储器，例如磁盘中，类似录音机的原理，只是存储的是数据资料；在光盘中，以有无反射区分是0还是1。这样计算机就能存储大量的数据了。移动硬盘存储介质保存电脑的数据信息好。DV
学习c语言需要多长时间
完全学习C语言需要一个月。学习语言容易，但要想随心所欲的发挥，需要相当长的时间，你先花一个月的时间把C语言的语法、函数库等弄明白，再花半年时间阅读一些别人编好的程序，以能看明白为准，然后自己编一些小程序。应付二级自学c语言一般需要1~3个
CSS如何在图片上再加上一个图片
1、打开操作软件这里用DW，定义一个css样式，如下图2、首先看下，背景图效果，如下图所示：3、在div中添加一个img，输入以下代码。如下图所示：4、即可实现如题，css图片之上再加一张图片：如下图所示：css插入图片方法如下：操作设备
怎么在电脑上创建文件
问题一：在电脑上如何建立一个文件夹1,在电脑桌面上打开“我的电脑”或者Windows7系统显示的是“计算机”。 2,打开电脑上杂乱且多文件所在的一个磁盘，这里就以E盘为例，打开E盘。 3,打开E盘后，右键单击窗口的空白地方，在出
初学R语言，用lm跑回归时出错，求助
方法1：attach(data)regression1&lt- lm(AmountSpent~Salary,data=data)；最后detach(data)方法2：regression1&lt- lm(data$Amoun
CSS样式表代码布局基础教程
CSS样式表代码布局基础教程CSS样式表代码布局基础教程—课程10：外部样式表(一)十、外部样式表外部样式表是把各种样式单独存在一个文件里，供其他多个网页调用，下面我们来看一个练习；1、文本编辑器1）打开记事本或 gedi
css 如何控制span 强制换行
css 如何控制span 强制换行&lt!DOCTYPE HTML PUBLIC "-W3CDTD HTML 4.01 TransitionalEN"":w3.TR4loose.dtd&quo
电脑显示器怎么装
你们知道怎么安装电脑显示器吗，下面是我带来的关于电脑显示器怎么装的内容，欢迎阅读!电脑显示器安装方法一：连接显示器和电脑主机使用的信号线：如下图 1、VGA信号线。2、显示器和电脑主机的连接方法：如下图
Java基础面试题都有哪些?
1.java异常机制的原理与应用x0dx0a答：每当程序出现异常之后，如果程序没有进行相应的处理，则程序会出现中断现象。x0dx0a实际上，产生了异常之后，JVM会抛出一个异常类的实例化对象，如果此时使用了try语句捕获的话，则可以
在JS中，函数与对象的区别是什么呢？
在js中函数就是一个对象，函数在没有返回值时默认返回的一个对象，一个函数也可以作为参数传递给另外一个函数，这种方式通常被叫做 callback 模式。另外推荐给你一本书《JavaScript.Patterns》里边对日常代码编写规范做了很好
Python数据挖掘从哪些
一. 基于Python的数据挖掘基本架构1. matplotlib，图形化2. pandas，数据挖掘的关键，提供各种挖掘分析的算法3. numpy，提供基本的统计scipy，提供各种数学公式4. python common li
js如何把object怎么转化数组，并取出object中的值
原则上obj是不能转换成数组的。首先array也是obj。只是一个特殊的object。obj一个很关键的点，是拥有成员和方法，撇开方法不说，obj就是一个key-value结构。也就是哈希数组，而js的数组只能是由数字索引组成的。撇开了ke
怎么用js删添一个option
&lt!doctype html&gt&lthtml&gt&lthead&gt&lttitle&gtnew document &lttitle&gt&
电脑版微信怎么使用
具体操作步骤如下：需要准备的材料有：电脑、微信1、首先打开电脑，点击“微信”应用选项。iknow-pic.cdn.bcebos.com359b033b5bb5c9ea7e79e86cdb39b6003bf3b3b3"targe
R语言--字符处理（stringr包）
stringr 包中的大部分函数具有统一风格的命名方式，以 str_ 开头，正则表达式也完全适用该包。字符串拼接函数 str_c ，与R语言自带的 paste 和 paste0 函数具有相同的作用。字符计数函数 str_coun
R语言是什么？
《R语言4.0.4软件》百度网盘资源免费下载:链接: https:pan.baidu.coms160twe4ScMvIbGm2TI_sjHw?pwd=3ts7 提取码: 3ts7R语言4.0.4是一款专业的统计建模软件，与其它建
CSS代码怎么把小图片设为背景图
01首先看下html代码，一个空的div，什么内容都还没放上。02为这个div写上一些美化的样式。03刷新页面，看下效果，现在就是显示一个有边框的div。04要用css为这个div加上背景图片，只需要加上back
移动端适配方案：js实现动态改变根元素的字体大小
通过js动态获取屏幕的宽度（document.clientWidth）然后根据屏幕宽度动态计算出rem的实际值。假设，640px的设备1rem = 100px 公式：rem = document.clientWidth

推荐阅读

热门文章

最新发布

标签列表

怎么爬取网页的动态内容，很多都是js动态生

给您推荐相同类型的内容：