java爬虫怎么抓取js动态生成的内容

2023-04-15 04:12:01JavaScript014

java爬虫怎么抓取js动态生成的内容,第1张

我用Jsoup写爬虫，一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。

1、有些页面元素被隐藏起来了->换selector解决

2、有些数据保存在js/json对象中->截取对应的串，分析解决

3、通过api接口调用->伪造请求获得数据

还有一个终极方法

4、使用phantomjs或者casperjs这种headless浏览器

String url = try {WebClient webClient = new WebClient(BrowserVersion.FIREFOX_10) //设置webClient的相关参数webClient.getOptions().setJavaScriptEnabled(true) webClient.getOptions().setCssEnabled(false) webClient.setAjaxController(new NicelyResynchronizingAjaxController()) //webClient.getOptions().setTimeout(50000) webClient.getOptions().setThrowExceptionOnScriptError(false) //模拟浏览器打开一个目标网址HtmlPage rootPage = webClient.getPage(url) System.out.println("为了获取js执行的数据线程开始沉睡等待") Thread.sleep(3000)//主要是这个线程的等待因为js加载也是需要时间的System.out.println("线程结束沉睡") String html = rootPage.asText() System.out.println(html)} catch (Exception e) {}

js代码是需要js引擎运行的，Python只能通过HTTP请求获取到HTML、CSS、JS原始代码而已。

不知道有没有用Python编写的JS引擎，估计需求不大。

我一般用PhantomJS、CasperJS这些引擎来做浏览器抓取。

直接在其中写JS代码来做DOM操控、分析，以文件方式输出结果。

让Python去调用该程序，通过读文件方式获得内容。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：两台电脑共享文件怎么设置？

# 下一篇：ucss币是什么币

给您推荐相同类型的内容：

《web前端笔记7》js字符—获取、查找、遍历、提取、替换方法总结
（1）字符串就是零个或多个排在一起的字符。（2）放在单引号或双引号之中。 'abc' "abc"。（3）单引号字符串的内部，可以使用双引号。（4）双引号字符串的内部，可以
笔记本电脑开不了机的原因？
可能的原因如下：1、主板故障、内存故障如果有两根内存，建议将一根内存拔了，保留一根内存进行开机尝试，不行的话，单独换另一根尝试开机测试，如果是主板问题，建议送修，自己搞不定的。2、显卡、屏幕排线故障一般显卡、屏幕排线故障，通常都可以进入操作
jq刷新页面会定时器会清除么
JS定时器有两种，分别是setTimeout和setInterval，区别是前者是一次执行，后者是循环执行，具体什么意思呢，直接看代码。指定时间为6000毫秒，即6s，到达6s后，执行一次，之后不再执行。setTimeout(funct
Css里面的颜色怎么搞，就是背景弄成红色，字体是白色，还有字体默认怎么是蓝色？
背景红色是background-color:red字体白色是 color:#FFFFFF并不是字体默认的是蓝色。而是你那个字体添加的有超链接，超链接默认的是蓝色CSS代码：.divcss5{ background:#F00 color:
CSS代码怎么用？放哪？
1、此段css代码，其他页面不需要。可以直接放在需要的HTML文件中。在head标签下，写上style标签，把css代码放在style标签中。2、可以新建一个css文件，比如index.css，把这段css代码放进这个index.css
如何释放Python占用的内存
象的引用计数减少；函数运行结束，所有局部变量都被销毁，对象的引用计数也就随之减少。例如 foo(x) 运行结束，x 被销毁；当变量被赋值给另一个对象时，原对象的引用计数也会减少。例如 x = 4，这时候 3 这个对象的引用计数就减 1 了；
js怎么输出数组
可以用alert函数看里面的值的但是必须用for循环var array = ["1","2","3","4"]your array herefor(c
CSS怎么循环显示
主要需要使用-webkit-animation如：-webkit-animation:gogogo 2s infinite linear 其中gogogo是自己定义的动画帧，2s是整个动画的秒数，infinite是永久循环 linear
css实现圆角的几种方法
有四种方法可以实现圆角。第一、直接写CSS代码：border-radius例如：border-radius:4px或者可以四个不同圆度：border-radius:4px 4px 3px 3px顺序是左上角，右上角，右下角，左下角第二、四个
excel表格制作后怎么打印
Excel表格不会打印？学会这4个打印小技巧，让你秒变职场达人！Excel表格不会打印？打印不出理想表格？那么今天小编在这里为大家整理了4个常用的Excel打印小技巧，让你分分钟秒变职场达人！1:任意打印Excel区域我们在打印表格时候经常
电脑无线网断网怎么办？
Wifi上网经常断网掉线，可以尝试以下几个方面修复：1、升级网卡驱动用户可能因为某种原因或者操作不当引起网卡驱动工作不稳定，比如重装系统网卡驱动老旧、中毒等等的原因。重新安装无限网卡驱动或者升级是很有必要的，可以借助驱动精灵、驱动人生等等的
js写抽奖转盘怎么设置中奖几率
js用向后端发送请求，然后后端通过一些算法计算出要中的奖项或者旋转的角度，返回到前端，js根据返回的奖项或者旋转的角度，来决定最终停止的位置。中奖几率基本不写在js里，因为js可以被破解和修改，都是写在后端的。应该是界面效果切换代码cost
文件后缀隐藏了怎么显示
工具／原料：电脑型号：华硕X540up、系统版本：Windows10，64位操作系统1、首先打开电脑桌面中的此电脑。2、然后选择桌面文件夹。3、之后点击查看里面的选项。4、进入选项，以后点击上方的查看。5、在高级设置里面，将隐藏已知文件类
win7怎么更改dpi设置。。。
win7更改dpi设置的方法可以通过以下5个步骤操作来实现：1、在桌面点击鼠标右键选择屏幕分辨率选项进入，如下图所示：2、选择“放大或缩小文本和其他项目”，通过这个界面非常简单的进行 DPI的调整。3、在左侧菜单选项，点击选择“设置自定义
lol国服第一剑圣是谁？
小僧空空，LOL国服第一剑圣小僧空空，45人头双五杀，最高用剑圣打到了艾欧尼亚王者组500胜点的段位。【资料】在符文之地，魔法就是一切。在这里，魔法不只是一种神秘莫测的能量概念。它是实体化的物质，可以被引导、成形、塑造和操作。符文之地的魔法
怎么删除电脑访问记录?
问题一：如何完全删除电脑上所有的浏览记录和视频观看记录？第一种方法：点击“工具”――“Internet选项”――“清除历史记录”和“清除Cookies”. 确定即可。第二种方法：使用上网助手等工具，锭面清理痕迹。第三种方法：
如何定义 css 删除线样式？
语法：text-decoration : none || underline || blink || overline || line-through参数：none :无装饰blink :闪烁underline :下
笔记本电脑开机进不了系统怎么办
笔记本电脑开机进不了系统的解决方法如下：1、按下开机键启动电脑，默认会进入到系统选择的界面，按Tab键，切换到最下面的更改默认值或选择其他选项，点击回车键。2、然后选择选择其他选项，回车。3、选择疑难解答，回车。4、选择高级选项，回车。5、
js怎么把DIV的背景图片给取消
修改DIV的背景图，其实就是修改样式里的background。可以让background直接等于空就可以了。下面是代码：&ltbody&gt &lt!--添加一个div，给它加上相应的背景图--&gt
什么是userchrome.js脚本？和chrome是什么关系？
firefox浏览器的浏览器框架就是用类xml的xul做的可以用js写脚本来控制userchrome脚本就是用户自己写的控制浏览器的脚本跟chrome浏览器没什么太大的关系所谓chrome指的是浏览器的外框这个在google出chrome之
nodejs如何检查哪个IP访问80端口
由于linux的系统限制，普通用户是无法打开1024以下端口的，这里面就包括http的默认端口80，这就使得很多用户使用root权限来执行node，这带来了不可预计的安全问题，所以这并不是一个好办法。其实我们可以使用iptables的端口转
css 样式被划了横线，是为什么
在调试中发现css样式被划了横线表示该css样式被层叠不会被解释执行，相当于没写！当同一个HTML元素被不止一个样式定义时，一般而言，所有的样式会根据下面的规则层叠于一个新的虚拟样式表中，其中数字 4 拥有最高的优先权。1.浏览器缺省设置2
html中两个CSS起冲突求解决啊
首你判断是CSS原因还是JS原因你说的不显示很笼统放一块后不行是样式没有了功能还有还是样式有功能没有还是两个都没有第一种情况是CSS问题第二种情况是JS问题第三种情况自己是两个都有问题一一排除css代码后定义先使
上海js继续教育考试可以考几次
上海js继续教育考试可以考很多次。根据查询相关公开信息显示，上海市继续教育实行线上考试，线上考试30、60、90学分，考试时长为60分钟，满分100分，60分及格，考试内容为所学课程，不限制考试次数，认真做模拟题均可通过。江苏大学继续教育学
微信小程序-css动画
1.wxml: 2.wxss （1）属性绑定： (2)动画实现: 动画效果:1首先，先在&ltbody&gt&ltbody&gt中加入门&ltdiv class="left
R ggplot2 中reorder()如何降序
喜大普奔，终于解决了reorder()降序排序的问题；举例说明一下：首先我有两列数据：第一列是样品名，第二列是对应数值。先画个简单的barplot：如下图：我想将x轴排序，可以提前将数据排好序之后再画图，但是这
电脑新建文件夹怎么弄
以在WIN10系统中操作为例，可以在需要创建文件夹的位置点击右键。在出现的选项中可以看到新建文件夹的按钮，点击该按钮即可创建。具体的创建方法如下：设备：华为笔记本。系统：win7。软件：文件夹。版本：8.0.11。1、在电脑上打开
怎么修改电脑系统语言？
由于某些工作的需要或者其他原因，需要在电脑里新增一种其他语言，那么到底该怎么操作呢，下面就让我教大家吧。修改电脑系统语言的方法首先，我们开启控制面板。接下来，选择更改显示语言。再选择更改显示语言。在这里就可
css里空格用什么写
想插入空格的代码中插入&ampnbsp；即可。一个&ampnbsp代表一个空格如果是想通过空格缩进，可以通过divcss{text-indent:50px}，这里divcss对象内段落首行开头文字缩进了50像素。在属性中需
请问JS防水涂料可以用到屋面吗？
——涂料类的防水材料尽量不要做到屋面上，推荐，做了JS必须要做保护层，否则半个月太阳就能晒烂- -#，即使做了保护层，保护层有裂缝以后，风吹雨淋，JS还会烂掉。——所有涂料类的防水材料，我大都不会推荐做屋面防水，性价比不高。做防水需要在迎水

推荐阅读

热门文章

最新发布

标签列表

java爬虫怎么抓取js动态生成的内容

给您推荐相同类型的内容：