java中几种解析html的工具

2023-03-01 21:56:01html-css027

java中几种解析html的工具,第1张

HTML分析是一个比较复杂的工作，Java世界主要有几款比较方便的分析工具：

1.Jsoup

Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是，可以用于支持用jQuery中css selector的方式选取元素，这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla"

Document doc = JSoup.parse(content)

Elements links = doc.select("a[href]")

Jsoup还支持白名单过滤机制，对于网站防止XSS攻击也是很好的。

2.HtmlParser

HtmlParser的功能比较完备，也挺灵活，但谈不上方便。这个项目很久没有维护了，最新版本是2.1。HtmlParser的核心元素是Node，对应一个HTML标签，支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter，通过实现NodeFilter接口，可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 实现简易爬虫。

3.Apache tika

tika是专为抽取而生的工具，还支持PDF、Zip甚至是Java Class。使用tika分析HTML，需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler，解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用，我个人倒是认为对于解析html意义不是很大。

InputStream inputStream = null

HtmlParser htmlParser = new HtmlParser()

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext())

4.HtmlCleaner与XPath

HtmlCleaner最大的优点是：支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言，也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的，但是CSS Selector专门针对HTML，写法更简洁，而XPath则是通用的标准，可以精确到属性值。XPath有一定的学习成本，但是对经常需要编写爬虫的人来说，这点投入绝对是值得的。

步骤:

一、使用java.net包下的URL类，可以将一个网页（链接）封装成一个URL对象。

二、URL对象有一个openStream()方法，使用该方法可以获取该网页的输入流，我们可以通过读取输入流的方式获得网页的内容，并通过输出流写入HTML文件中。

补充:

步骤：

1.通过URL对象的openStream()方法获得网页的字节输入流。

2.为字节输入流加缓冲。

3. 创建字节输出流对象。

4. 为字节输出流加缓冲。

5. 读取数据，并写入HTML文件。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：ipadpro支持哪些鼠标

# 下一篇：181js金沙城————优博奶粉怎么样？

给您推荐相同类型的内容：

利用Java语言代码输入一行字符分别统计其中英文字母、空格、数字和其他字符的个数。
123456789101112131415161718192021222324public static void main(String[] args) throws IOException { BufferedReader
电脑性能包括什么东西？？
通常影响电脑性能主要有3大件~CPU,内存，显卡硬盘因为技术提升不是很明显，所以对性能影响相对于以上3大件比较小~当然，如果你用固态硬盘，那数据传输性能会有大幅提高~1. CPU就是中央处理器，顾名思义，它的作用直接影响整个电脑的运算性能，
什么植物防电脑辐射
什么植物防电脑辐射最好—仙人球根据大多数人们的了解，最常见的防电脑辐射的植物是仙人掌、仙人球一类的植物。这类带刺的植物身体肉质厚，水分多。易于吸收和化解电脑周围环境的电磁场辐射毒素，减少污染，有益于人体健康。在培育的过程中也十分简
电脑死机无法关机怎么办？
电脑死机无法关机可参考以下步骤:1、长按关机键，不要松手。在些过程中一定不要松开手,一般5、6秒后电脑会关机，这时再松开手。2、如果还能打开打开任务管理器，选任务管理器关机-关闭。3、点击开始运行，输入shutdown-s点击确定，之后就
电脑在家如何赚钱有哪些方法？
用电脑在家赚钱的方法：1、代卖产品，自己在拼夕夕或者亚马逊等网站找到销量比较好的产品，将图片资源等下载下来，转到咸鱼或转转等平台提高卖价赚取差价。2、做视频流量，只要你的粉丝足够多，无论是自媒体还是公众号，接广告或者是做产品都可以盈利。
怎么在电脑上录全民k歌
可以利用电脑给全民k歌导入本地视频，以下是具体步骤：所需工具：电脑。1、如图红圈处所示，将全民k歌的图标和待上传的视频并列放在一起。2、如图红圈处所示，双击全民k歌，打开软件。3、这样就进入主目录了，如图红圈处所示，打开本地作品。4、这
表格细边框的CSS样式怎么设置？
指定的&lttable&gt为细边框，把&lttable&gt放在&ltdiv&gt中即可。一、首先新建表格，代码如下：&lttable width="500"
js?是什么意思
js全称叫做JavaScript，是一种动态类型、弱类型、基于原型的一种直译式脚本语言。最早是在HTML网页中使用，用来给HTML网页增加一些动态功能。JavaScript是一种属于网络的脚本语言，如今已经被广泛的用于web应用的开发，为用
我想自己组装电脑，有什么要特别要注意的吗？
组装电脑购买配件注意如下：1、首先是主板，也是最主要的部分了，主板上有各种插槽，比如内存插槽，显卡插槽、以及芯片组，购买主板要买大厂家的，是后面电脑正常运行的有力保障。2、显卡和声卡，这个要看电脑的用途，如果是一般的工作使用，一些文件的记
怎么让电脑不受老师控制？
想要电脑不受老师控制的具体方法如下：1、首先我们点击开始菜单中的“运行...”按钮，在运行中输入services.msc回车确定即可打开“服务”。2，在服务界面中找到Remote Registry项。3、双击打开Remote Regist
网吧里的操作系统怎么装具体过程
分类:电脑网络 &gt&gt操作系统系统故障问题描述:网吧里的电脑有的有硬盘，很多是无盘的，操作系统怎么装。具体过程解析:OSOL无盘网吧的建立1.购卖一台OSOL服务器,有36用
python dnf的安装包在哪
Windows x86 MSI Installer (2.7.8) -32位系统安装的pythonWindows x86 MSI program database (2.7.8)- 32位python源码的符号库。如果做纯Python
电脑使用入门教程
电脑使用入门教程如下：1、首先需要掌握电脑开、关机方法，一般来讲开机时要先开外设，也就是即主机箱以外的其他硬件设备，然后再打开主机，关机时要先关主机后关外设；第一次开机，是先打开显示器的电源开关，然后再打开主机箱的电源开关，有一个【POW
天猫的全部筛选功能怎么做 js
js商品筛选功能的具体代码步骤如下：1、根据数据结构生成HTML结构（利用dom操作）。2、获取每一个li,给每一个li中每一个a标签绑定事件处理函数。3、点击a标签，把a标签的内容添加在对象中，同时添加样式。4、根据对象存的属性生成选择则
华为p10怎么连接电脑
华为p10刚刚发布没多久，相信不少人都入手了这部手机。有用户就在问，华为p10怎么连接电脑？下面是我收集整理的华为p10怎么连接电脑，希望对你有帮助。华为p10连接电脑之前要先在手机上打开【开发者选项】和【USB调试】，三步即可完成。
浏览器老是“正在解析主机”，如何解决（急！！！）
原因：在浏览器中打开了很多网页，网页的打开速度就会变慢，会在浏览器下方发现“正在解析主机”。解决方法：1、打开电脑桌面的“开始”，找到“控制面板”打开程序。2、打开控制面板中的“网络和Internet”点击“网络和共享中心”。3、点击界
html文字加超链接设置
html文字加超链接设置超级链接简单来讲，就是指按内容链接。下面是html文字加超链接的设置步骤，欢迎大家阅读了解。超链接的基本格式是： scheme:host[:post]pathfilenamescheme指
181js金沙城————优博奶粉怎么样？
还是有很多宝宝喝的。目前没有听说有什么问题。只要是正规渠道购买的，有严格按照要求生产的，应该都没有什么问题的。但每个宝宝的体质不一样，爱好的口味也不同，同一款奶粉也不一定适合每个宝宝。如果你中意的话，可以先买一点试试，如果宝宝没有什么不适的
新华电脑学校怎么样
新华电脑学校不错的，能学到很多东西。新华电脑教育特别重视人才培养，把培养精理论、强技能、擅应用、会创新的一专多能综合型人才作为人才培养目标，同时注重学员的综合素质教育和营造丰富多彩的校园文化生活，使学生得到全面发展。选择学校时可以从以下几个
哪个品牌的办公电脑好呢？求推荐下
办公电脑推荐：HP Zhan 86 Pro G1、华硕傲世V241IC、戴尔成就Vostro、联想扬天A8000t、联想（Lenovo）AIO 520 等。1、HP Zhan 86 Pro G1HP Zhan 86 Pro G1是一款商
html页面里面如何实现点击小图放大查看大图
需要准备的材料分别有：电脑、浏览器、html编辑器。1、首先，打开html编辑器，新建html文件，例如：index.html。2、在index.html中的&ltstyle&gt标签中，输入css代码：div {wid
电脑如何添加搜狗输入法
在使用电脑时，为了方便打字，想要设置搜狗输入法，那么电脑如何添加搜狗输入法，为此本篇介绍以下方法。1、首先在电脑中打开电脑管家，比如：腾讯电脑管家，点击“软件管理”。2、在软件管理页面，搜索“搜狗输入法”，再点击“安装”。3、出现安装包，
电脑的QQ和手机QQ怎么互传文件啊？求解答啊！
电脑的QQ和手机QQ互传文件的具体操作方法如下：1.电脑传输文件到QQ。首先在电脑上登陆QQ，在搜索栏输入【我的手机】。2.点击此处。3.进入对话框之后，点击此处。4.选择想要传输的文件，双击。5.传输完成。6.从手机传输到电脑。登陆手机
ipad包括哪些硬件配置
导语：平板电脑的重量通常在1Kg以下，如果经常要携带笔记本出门，那么平板将是用户首选。其次平板电脑概念新颖，更能体现科技感，对于提升个人以及所代表的公司形象，有很大的帮助。再次，就是平板电脑的操作模式，吸引很多文字录入需求少，或者适合手写输
css中怎么给一个标签添加多个标签名
css选择器中有多个类,css如何设置两个类名1、css选择器中有多个类,css如何设置两个类名? css设置两个类名很简单,需要两个步骤: 一,样式表css定义两个类如下: .FontRed{color:red} .FontSize{fo
如何用我的电脑打开FTP地址？
用自己的电脑打开FTP地址的具体操作如下：首先下载安装Serv-U,运行,将出现“设置向导”窗口,下面就一步步进行操作：1设置Serv-U的IP地址与域名。一路单击“下一步”跳过系统提示信息,来到“您的IP地址”窗口这里要求输入本机的IP
电脑怎么下载lol？
首先百度搜"英雄联盟".这时候就会看到如图所示:点击立即下载按钮,下载下来之后,就会看到桌面上有个如图所示的图标.双击打开该图标,选择好英雄联盟安装包存放的位置之后,点击开始下载就可以下载安装包了.此段过程时间比较长.如
css中在a中的居中
div+css布局中要实现文本的水平居中，需要设置容器的text-align:center实现注意容器必须是块级元素并且有宽度时候支持这个属性。垂直居中设置div的行高，比如你的DIV容器高度是height：22px，那么你设置line-h
电脑屏幕什么角度放置比较好？
正确的坐姿。选择可调节高度的坐椅，背部有完全的支撑，膝盖约弯曲90度，坐姿舒适。电脑屏幕的中心位置应与操作者胸部在同一水平线上，眼睛与屏幕的距离应在40厘米～50厘米，身体不要与桌子*得太近，肘部保持自然弯曲。操作过程中应常闭上眼睛稍息片刻
电脑墙纸如何设置
设置墙纸，即也就是设置桌面背景。右击桌面空白处，在弹出的快捷菜单中选择个性化，在打开的个性化窗口中单击底部的桌面背景，打开桌面背景窗口。在窗口中可以设置墙纸为纯色，或是图片背景。窗口中找到并选中合适的墙纸。单击保存更改即可。操作步骤如下：方

推荐阅读

热门文章

最新发布

标签列表

java中几种解析html的工具

给您推荐相同类型的内容：