如何用JAVA爬取AJAX加载后的页面

2023-04-11 09:15:01JavaScript033

如何用JAVA爬取AJAX加载后的页面,第1张

普通的爬取是抓不了js的之后的数据的可以用phantomjs或者htmlUnit实现

附上phantomjs示列代码

package cn.wang.utils

import java.util.Random

import com.gargoylesoftware.htmlunit.BrowserVersion

import com.gargoylesoftware.htmlunit.CookieManager

import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController

import com.gargoylesoftware.htmlunit.WebClient

public class htmlUnitUtils {

static WebClient webClient = null

static Random random = new Random()

static{

//1.创建对象

webClient = new WebClient(BrowserVersion.CHROME)

//2.设置参数

//启动js

webClient.getOptions().setJavaScriptEnabled(true)

//关闭css渲染

webClient.getOptions().setCssEnabled(false)

//启动重定向

webClient.getOptions().setRedirectEnabled(true)

//设置连接超时时间，这里是10S。如果为0，则无限期等待

webClient.getOptions().setTimeout(1000 * 15)

//启动cookie管理

webClient.setCookieManager(new CookieManager())

//启动ajax代理

webClient.setAjaxController(new NicelyResynchronizingAjaxController())

//js运行时错误，是否抛出异常

webClient.getOptions().setThrowExceptionOnScriptError(false)

//设置浏览器请求信息

webClient.addRequestHeader("Accept", "text/html,application/xhtml+xml,application/xmlq=0.9,*/*q=0.8")

webClient.addRequestHeader("Accept-Encoding", "gzip, deflate")

webClient.addRequestHeader("Accept-Language", "zh-CN,zhq=0.8,zh-TWq=0.7,zh-HKq=0.5,en-USq=0.3,enq=0.2")

webClient.addRequestHeader("Connection", "keep-alive")

webClient.addRequestHeader("Upgrade-Insecure-Requests", "1")

}

public static void runJs(String url){

try {

webClient.addRequestHeader("User-Agent", Constant.useragents[random.nextInt(Constant.useragents.length)])

//等待js渲染执行 waitime等待时间(ms)

webClient.waitForBackgroundJavaScript(1000 * 10)

//3.获取页面

webClient.getPage(url)

} catch (Exception e) {

e.printStackTrace()

} finally {

if(webClient != null){

webClient.close()

}

public static void main(String[] args) {

runJs("http://www.gou.hk/")

System.setProperty("phantomjs.binary.path", "D:\\works\\tool\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe")

}

推荐大家使用神箭手云爬虫写爬虫，完全在云上编写和执行爬虫，不需要配置任何开发环境，快速开发快速实现。

简单几行

javascript

就可以实现复杂的爬虫，同时提供很多功能函数：反反爬虫、

渲染、数据发布、图表分析、反防盗链等，这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。

神箭手上有开发者文档，详细说明了如何编写爬虫脚本，还有很多网站的源码分享哦。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：css安全问题

# 下一篇：css背景颜色会覆盖左边框颜色吗

给您推荐相同类型的内容：

Markdown——CSS达成图片居中等排版方法
使用Md可以提升写作效率，同时增强文章排版的工整规范性，因此越来越多人尝试使用Md取代传统富文本编辑器作为写作工具。如果将Md看作是一门语言，那么与其最恰似的应当就是我们经常接触到的HTML——它们都是面向结构的语言。因此，使用
如何在CSS中设置角标啊，
&ltstyletype="textcss"&gt&lt!--sup{color:red}sub{color:yellow}--&gt&ltstyle&gt======
怎么用js才能改变360浏览器的模式？
你需要学习CSS，不同浏览器对CSS的支持是不一样的，例如一个滚动条的样式,ie和chrome的css代码就不同,而firefox则根本不支持。一、怎样更改360浏览器的模式操作方法：01、打开电脑上的360浏览器，然后点击电脑右上角搜索
光遇txt怎么转换成js
光遇txt怎么转换成js？首先你需要“光遇乐谱转js”和“Auto.js”两款软件，软件随后我会发链接。随后，你可以在光遇乐谱转js上自己写谱子里面的按键和光遇里的是对应的，很简单我们来详细解释一下最上边一栏十分有用，从左数第一个……自己看
关于网页图片延迟加载的问题
您好：您看插件的名字应该知道，是滚动条动的时候才会延时加载。所以scrollLoading中肯定加了滚动条事件，在滚动事件中加的加载的方法。这样就只能改动他的js插件才可以了。找到加滚动事件的方法。看他里面怎么实现滚动加载的，然后把加到你的
css 设置图片与文字的对齐方式求教
这里给你解释一下 &ltp&gt也算是一个容器，什么叫容器，比如罐子，碗，等，可以在里面放东西的都属于容器而&ltimg&gt不是容器，只是显示反映图片 &ltp style="text-
js 找到子元素的父元素
一、原生方法：元素parentNode，返回元素的第一个父节点。二、Jquery方法： 1、元素parent()，返回元素的第一个父节点。 2、元素parents()，返回一个包含元素所有父节点的数组。js获取父页面的元
qq三国75级JS一身鬼神做200环能给多少经验
75级的做完200步有35%~40%左右的经验要准备3000万到3500万。需要的东西什么都有有时只要些副职材料这些可以自己做..有时要高闪呀.高宁呀这些BT东西就要用通关了.凡是任务需要的物品价钱超过通关符的价格都用通关符来过 100步
js判断iphone14
最近在做一个移动端的项目，项目出现的一大堆兼容问题是在让我头疼，其中就包括获取当前使用的 ios 的机型。逛了很多圈博客，很多是用了组件实现的，也不知道是我方法没用对还是怎么回事，我用的组件只能获取到安卓手机的机型，最后只能采用比较笨的
js 定时锁屏
跟 frameset锁屏，是在主frame上多一个div层显示在上面而已，并不是弹出.#wrap{ width:100%height:1460pxbackground:#999position:absolutetop:0left:0z-
组装一个3500左右的电脑，怎么配置呢？
3500元性价比游戏电脑配置清单：今天电脑配置网给大家带来一套性价比很不错的游戏装机配置方案，主机的价位在3500元，很符合主流游戏用户的价格区间，高特效LOL，cf，中特效吃鸡、大型单机都可以应对。虽然intel已经推出了第九代处理器，
CSS中设定字体如何设定为微软雅黑 Bold字体？
以在css中设置文本字体为“微软雅黑”。具体方法和CSS代码如下：.body {font-family:"Microsoft YaHei",微软雅黑,"Microsoft JhengHei",华文细
关于调速电机的调速器问题
JD1A-40控制器调速范围在132-1320转分，控制电机是15-40KW。JS1A-90调速范围在440-1320转分，控制电机是45-90KW。JD1A-40调整范围在125-1250转分控制电机功率是0.55-11KW。这几个
set.seed()作用
R语言中set.seed()作用是设定生成随机数的种子，种子是为了让结果具有重复性，重现结果。如果不设定种子，生成的随机数无法重现。后两次在设定了相同的种子前提下，生成的随机数是相同的。说明，来源于网络计算机并不能产
河南防水材料品牌
开来湿克威防水，华瑞防水，建都，金拇指GOLDENTHUMB，璞华建材，石鼎建材。开来湿克威成立26年来，社会给与了很多荣誉，AAA级信用企业，中国防水涂料十大品牌，中国建材质量环保认证，OHSAS18001认证，中国人民保险公司质量承包
级联对象组成的数组便利成级联数据显示
你看这样，我在原来的代码中尽量逐行加上注释加以说明，然后你再自己去改下，有问题再追问&lt!DOCTYPE html PUBLIC "-W3CDTD XHTML 1.0 TransitionalEN"
edge浏览器怎么打开扩展
edge浏览器打开扩展的具体操作方法如下：1、打开Microsoft Edge浏览器后，在地址栏中输入“about:flags”，并按回车键打开配置项，勾选“启用开发人员扩展功能”选项。2、点击浏览器右上角的三个点打开Microsoft E
一个在手机端运行的HTML文件如何通过JavaScript在本地创建一个excel文件并写入数据？
手机端浏览器实现excel的创建,理论上是支持的,没有遇到过完整解决方案的库,不建议新手自己编写.实现移动端excel的创建,有以下几个难题要解决:1 文件的读取和写入. 可以借助HTML5 的File()对象解决, 如果只是保存的话可以讲
vue引入的js文件修改路由不能跳转
对于单页应用，官方提供了vue-router进行路由跳转的处理，本篇主要也是基于其官方文档写作而成。安装基于传统，我更喜欢采用npm包的形式进行安装。npm install vue-router --save当然，官方采用了多种方式进行安装
案例演示 | R语言绘制热图代码
本文是个人笔记，请谨慎付费[星球用户可免费看]。我们在分析了差异表达数据之后，经常要进行热图的可视化展示。热图（Heat map）是一个以颜色变化来显示数据的矩阵。虽然“热图”是一个新兴的词汇，但是用明暗的矩阵来标
用CSS做PHP网页时需要哪些运行环境
其实你的问题应该问的不太专业CSS应该是控制网站的样式的PHP是控制网站的逻辑业务的运行PHP需要的环境一般有是 APACHE（web服务器）+PHP+MYSQL（数据库）如果你用的是windows操作系统建议你下载一个运行PHP的软件
js保留小数位
一、我们首先从经典的“四舍五入”算法讲起 1、四舍五入的情况 2、不四舍五入第一种，先把小数边整数：第二种，当作字符串，使用正则匹配：注意：如果是负数，请先转换为正数再计算，最后转回负数再分享一个经典的解决四
在css中设置文本行高的属性是
在css中设置文本行高的属性是lineheight。根据查询相关资料显示：css文本行高属性是lineheight，该属性可以设置行间的距离行高，语法lineheight值，属性值不可为负数。其实，行高就是你所设置的字符大小的高度。即，在段
C语言中mysql_query（）函数的返回值是什么？
执行sql语句的主要API函数被恰当的命名为：intmysql_query(MYSQL*connection,constchar*query)如果成功返回0.1.不返回数据的SQL语句my_ulonglongmysql_affected_r
css背景颜色会覆盖左边框颜色吗
是的，会覆盖左边框的颜色。因为在进行css背景颜色设置时，如果设置的过程中稍有疏忽，一不小心就有可能导致颜色背景的被覆盖。所以在进行操作时必须小心，小心，再小心，严格按照规章制度进行。主要有局部引入和全局引入。1、局部引入：在各自vue文件
css怎样让div里的表格居中对齐
css让div里的表格居中对齐的方法有很多，可以改变改变表格的样式属性，也可以通过改变div的样式属性，这里介绍通过改变表格的样式属性使表格居中，这样不会改变div里除表格的其他元素的样式属性和位置。以下演示具体步骤：1、打开HTML文件
CSS 画动态圈
&ltdiv class="container"&gt &ltdiv class="light"&gt&ltdiv&gt&ltdiv&
【R语言】--- 直方图
直方图(Histogram)，又称质量分布图，是一种统计报告图，由一系列高度不等的纵向条纹或线段组成，表示数据分布的情况。一般用横轴(X轴)表示数据类型，纵轴(Y轴)表示分布(相应值的频数)情况。绘制直方图，首先要对数据进行分组，然
Cocos Creator 中的js文件之间调用变量或类
查看js相关文档，常有关于全局变量和局部变量的描述，作用域和c++，go，等语言的概念不太相同。js中关于全局变量的描述通常指的是，在同一个js模块文件中，可以访问。而c++，go等项目，全局变量通常指的是，整个项目可以访问。所以容
CSS中的过渡动画
过渡是一种动画，是从一种状态过渡到另一种状态，在过渡前，浏览器会计算页面的新页面结构以及完成重绘，过渡会自动双向运行，因此只要状态一反转，反向动画就会被运行。如果我们不希望所有的元素属性受到影响，只希望作用到 box-shadow, tra

推荐阅读

热门文章

最新发布

标签列表

如何用JAVA爬取AJAX加载后的页面

给您推荐相同类型的内容：