java爬虫怎么抓取js动态生成的内容

2023-04-15 04:12:01JavaScript038

java爬虫怎么抓取js动态生成的内容,第1张

我用Jsoup写爬虫，一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。

1、有些页面元素被隐藏起来了->换selector解决

2、有些数据保存在js/json对象中->截取对应的串，分析解决

3、通过api接口调用->伪造请求获得数据

还有一个终极方法

4、使用phantomjs或者casperjs这种headless浏览器

String url = try {WebClient webClient = new WebClient(BrowserVersion.FIREFOX_10) //设置webClient的相关参数webClient.getOptions().setJavaScriptEnabled(true) webClient.getOptions().setCssEnabled(false) webClient.setAjaxController(new NicelyResynchronizingAjaxController()) //webClient.getOptions().setTimeout(50000) webClient.getOptions().setThrowExceptionOnScriptError(false) //模拟浏览器打开一个目标网址HtmlPage rootPage = webClient.getPage(url) System.out.println("为了获取js执行的数据线程开始沉睡等待") Thread.sleep(3000)//主要是这个线程的等待因为js加载也是需要时间的System.out.println("线程结束沉睡") String html = rootPage.asText() System.out.println(html)} catch (Exception e) {}

js代码是需要js引擎运行的，Python只能通过HTTP请求获取到HTML、CSS、JS原始代码而已。

不知道有没有用Python编写的JS引擎，估计需求不大。

我一般用PhantomJS、CasperJS这些引擎来做浏览器抓取。

直接在其中写JS代码来做DOM操控、分析，以文件方式输出结果。

让Python去调用该程序，通过读文件方式获得内容。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：两台电脑共享文件怎么设置？

# 下一篇：ucss币是什么币

给您推荐相同类型的内容：

JS 俄罗斯方块完美注释版代码
R#boardtrtd{width:20pxheight:20px}***JS俄罗斯方块完美注释版v1.01*从学c语言那一会儿都想写一个俄罗斯方块,可是每次动起手总觉得难度太大.*今天终于用了大约4个小时写出来了.其中在涉及到方块变型的
如何定义 css 删除线样式？
语法：text-decoration : none || underline || blink || overline || line-through参数：none :无装饰blink :闪烁underline :下
将hexo 生成的静态网站部署到GitHub上，无法显示CSS样式？
GitHub默认目录路径为域名项目名称，也就是你所创建的，都是在项目名称之后。我也是测试了几次才发现的。拿你自己的项目举例：其实你自己已经写出来了，你没有注意到；a：默认域名为：http:localhost:4000
在CSS中如何设置一个按钮鼠标划过变颜色。
需要准备的材料分别有：电脑、浏览器、html编辑器。1、首先，打开html编辑器，新建html文件，例如：index.html。2、在index.html中的&ltstyle&gt标签中，输入css代码：button {b
html中两个CSS起冲突求解决啊
首你判断是CSS原因还是JS原因你说的不显示很笼统放一块后不行是样式没有了功能还有还是样式有功能没有还是两个都没有第一种情况是CSS问题第二种情况是JS问题第三种情况自己是两个都有问题一一排除css代码后定义先使
R ggplot2 中reorder()如何降序
喜大普奔，终于解决了reorder()降序排序的问题；举例说明一下：首先我有两列数据：第一列是样品名，第二列是对应数值。先画个简单的barplot：如下图：我想将x轴排序，可以提前将数据排好序之后再画图，但是这
dw中css样式中图片下面的横线怎么设置
css中使用textdecoration属性就可以直接设置划线效果。对字体样式文本加下横线款式，有二种方式，一直立即应用html下横线标识，此外一种是应用CSS下横线款式。这个属性允许对文本设置某种效果，如加下划线。。如果后代元素没有自己的
JS常用的静态方法
静态方法属于整个类所有，因此调用它不用实例化，可以直接调用------ 类.静态方法（） ====&gtArray.from()Array of(),Object.is(),Math.ceil().....,不难发现这些静态方
css里空格用什么写
想插入空格的代码中插入&ampnbsp；即可。一个&ampnbsp代表一个空格如果是想通过空格缩进，可以通过divcss{text-indent:50px}，这里divcss对象内段落首行开头文字缩进了50像素。在属性中需
什么是userchrome.js脚本？和chrome是什么关系？
firefox浏览器的浏览器框架就是用类xml的xul做的可以用js写脚本来控制userchrome脚本就是用户自己写的控制浏览器的脚本跟chrome浏览器没什么太大的关系所谓chrome指的是浏览器的外框这个在google出chrome之
动态修改css中:root定义的变量-换肤、主题色
前端中有用到需要设置主题颜色，根据用户喜欢实现换肤的可以使用css中:root定义变量的方式，或者使用动态切换引入的外部css样式表实现，这里着重记录下动态修改css中:root定义的变量实现换肤：这里定义变量必须是以'--
ucss币是什么币
数字货币。ucss币是优宝币的简称，是一种数字货币。数字货币是一种不受管制的、数字化的货币，通常由开发者发行和管理，被特定虚拟社区的成员所接受和使用，欧洲银行业管理局将虚拟货币定义为：价值的数字化表示，不由央行或当局发行，也不与法币挂钩，但
js怎么输出数组
可以用alert函数看里面的值的但是必须用for循环var array = ["1","2","3","4"]your array herefor(c
笔记本电脑开不了机的原因？
可能的原因如下：1、主板故障、内存故障如果有两根内存，建议将一根内存拔了，保留一根内存进行开机尝试，不行的话，单独换另一根尝试开机测试，如果是主板问题，建议送修，自己搞不定的。2、显卡、屏幕排线故障一般显卡、屏幕排线故障，通常都可以进入操作
文件后缀隐藏了怎么显示
工具／原料：电脑型号：华硕X540up、系统版本：Windows10，64位操作系统1、首先打开电脑桌面中的此电脑。2、然后选择桌面文件夹。3、之后点击查看里面的选项。4、进入选项，以后点击上方的查看。5、在高级设置里面，将隐藏已知文件类
CSS 的颜色代码透明色是什么代码？
透明色：transparent背景色设为透明，代码如下：background-color:transparent字体颜色设为透明，代码如下：color:transparent扩展资料：常用颜色代码分4种，分别如下：1、常用颜色单词
请问JS防水涂料可以用到屋面吗？
——涂料类的防水材料尽量不要做到屋面上，推荐，做了JS必须要做保护层，否则半个月太阳就能晒烂- -#，即使做了保护层，保护层有裂缝以后，风吹雨淋，JS还会烂掉。——所有涂料类的防水材料，我大都不会推荐做屋面防水，性价比不高。做防水需要在迎水
金玉168玉米种和良玉99比较那个好?
关于监狱168玉米种和良玉九九比较，各有其特点，所以，要根据当地的自然条件来进行选择，下面将这两个玉米种简介如下，够你选择时参考。良玉99玉米种子简介：　该品种是由辽宁省丹东登海良玉种业有限公司选育的玉米新品种，2012年通过国家审定，20
js怎么把DIV的背景图片给取消
修改DIV的背景图，其实就是修改样式里的background。可以让background直接等于空就可以了。下面是代码：&ltbody&gt &lt!--添加一个div，给它加上相应的背景图--&gt
java是什么意思
java是什么意思如下：Java是一门面向对象的编程语言，不仅吸收了C++语言的各种优点，还摒弃了C++里难以理解的多继承、指针等概念，因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表，极好地实
如何释放Python占用的内存
象的引用计数减少；函数运行结束，所有局部变量都被销毁，对象的引用计数也就随之减少。例如 foo(x) 运行结束，x 被销毁；当变量被赋值给另一个对象时，原对象的引用计数也会减少。例如 x = 4，这时候 3 这个对象的引用计数就减 1 了；
笔记本电脑开机进不了系统怎么办
笔记本电脑开机进不了系统的解决方法如下：1、按下开机键启动电脑，默认会进入到系统选择的界面，按Tab键，切换到最下面的更改默认值或选择其他选项，点击回车键。2、然后选择选择其他选项，回车。3、选择疑难解答，回车。4、选择高级选项，回车。5、
js和水泥的正确配比
1. 基面处理：基面必须坚固、干净、平整、湿润；基面有孔隙、裂缝等缺陷的，预先用水泥砂浆修补抹平；阴阳角用抹刀修成半圆角；确保基面充分湿润，但无明水。2. 材料配比：JS弹性防水乳液：水泥=1：（0.6-0.8）的重量比混合，充分搅
CSS居中方案大全
如果您觉得我的文章有用，欢迎点赞和关注，也欢迎光临我的个人博客 https:github.comBokFang 在这里总结一下CSS水平居中、垂直居中的各种方式。应该说非常全了。总览一下：用法：在父级元素的样式
CSS如何实现hover动态效果的示例代码
&lt!DOCTYPE html&gt&lthtml&gt &lthead&gt &ltmeta charset="utf-8"&gt &
win7怎么更改dpi设置。。。
win7更改dpi设置的方法可以通过以下5个步骤操作来实现：1、在桌面点击鼠标右键选择屏幕分辨率选项进入，如下图所示：2、选择“放大或缩小文本和其他项目”，通过这个界面非常简单的进行 DPI的调整。3、在左侧菜单选项，点击选择“设置自定义
怎么修改电脑系统语言？
由于某些工作的需要或者其他原因，需要在电脑里新增一种其他语言，那么到底该怎么操作呢，下面就让我教大家吧。修改电脑系统语言的方法首先，我们开启控制面板。接下来，选择更改显示语言。再选择更改显示语言。在这里就可
nodejs如何检查哪个IP访问80端口
由于linux的系统限制，普通用户是无法打开1024以下端口的，这里面就包括http的默认端口80，这就使得很多用户使用root权限来执行node，这带来了不可预计的安全问题，所以这并不是一个好办法。其实我们可以使用iptables的端口转
js写抽奖转盘怎么设置中奖几率
js用向后端发送请求，然后后端通过一些算法计算出要中的奖项或者旋转的角度，返回到前端，js根据返回的奖项或者旋转的角度，来决定最终停止的位置。中奖几率基本不写在js里，因为js可以被破解和修改，都是写在后端的。应该是界面效果切换代码cost
电脑新建文件夹怎么弄
以在WIN10系统中操作为例，可以在需要创建文件夹的位置点击右键。在出现的选项中可以看到新建文件夹的按钮，点击该按钮即可创建。具体的创建方法如下：设备：华为笔记本。系统：win7。软件：文件夹。版本：8.0.11。1、在电脑上打开

推荐阅读

热门文章

最新发布

标签列表

java爬虫怎么抓取js动态生成的内容

给您推荐相同类型的内容：