java中几种解析html的工具

2023-03-03 16:28:01html-css025

java中几种解析html的工具,第1张

HTML分析是一个比较复杂的工作，Java世界主要有几款比较方便的分析工具：

1.Jsoup

Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是，可以用于支持用jQuery中css selector的方式选取元素，这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla"

Document doc = JSoup.parse(content)

Elements links = doc.select("a[href]")

Jsoup还支持白名单过滤机制，对于网站防止XSS攻击也是很好的。

2.HtmlParser

HtmlParser的功能比较完备，也挺灵活，但谈不上方便。这个项目很久没有维护了，最新版本是2.1。HtmlParser的核心元素是Node，对应一个HTML标签，支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter，通过实现NodeFilter接口，可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 实现简易爬虫。

3.Apache tika

tika是专为抽取而生的工具，还支持PDF、Zip甚至是Java Class。使用tika分析HTML，需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler，解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用，我个人倒是认为对于解析html意义不是很大。

InputStream inputStream = null

HtmlParser htmlParser = new HtmlParser()

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext())

4.HtmlCleaner与XPath

HtmlCleaner最大的优点是：支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言，也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的，但是CSS Selector专门针对HTML，写法更简洁，而XPath则是通用的标准，可以精确到属性值。XPath有一定的学习成本，但是对经常需要编写爬虫的人来说，这点投入绝对是值得的。

jquery可以利用parseHtml来操作html字符串：

<html>

<head>

<script src="

$log = $( "#log" ),

str = "hello, <b>my name is</b> jQuery.",

html = $.parseHTML( str ),

nodeNames = [] // Append the parsed HTML$log.append( html ) // Gather the parsed HTML's node names$.each( html, function( i, el ) { nodeNames[i] = "<li>" + el.nodeName + "</li>"}) // Insert the node names$log.append( "<h3>Node Names:</h3>" )$( "<ol></ol>" ) .append( nodeNames.join( "" ) ) .appendTo( $log )

</script>

</body>

</html>

运行结果：

Content:

hello, my name is jQuery.Node Names:

#text

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：JAVA的界面怎么做？

# 下一篇：CSS 表格属性

给您推荐相同类型的内容：

微星哪个系列最好
问题一：微星哪个系列笔记本好微星只做游戏本。G就是GAMING的意思，而后面的STEPX就是微星所有的系列了。其中S定位超薄游戏本，T定位最顶端游戏性能的游戏本，而E系列定位在T和S之间，也就是说，比较薄，性能比较强这种，
python写抽签程序不重复
用python的random函数做一个班级抽签小程序import randomtimes=1while times &lt= 5:members =['张俊宇', '孙晓涵', &#
html中文件类型的Accept属性能不能设置docx
input type =file accept =applicationmsword br br accept属性列表 br 1.accept=applicationmsexcel 2.accept=applicationmsword
陆兴华的评价与争议
你可以看看这篇文章，就能知道这人是什么素质了。http:zhidao.baidu.comlink?url=kokGqSRUef93jWEpbrCGiSt12j985urUKC9NnST736JFJ0uh-fNQKoW3I5d8SjSW
怎么使用电脑裁剪图片
1、首先我们打开电脑，找到图片2、选中自己要裁剪的`图片，点击鼠标右键3、在滚动条中，点击“编辑”，就可以打开涂画功能4、然后我们会发现图片周围有小的正方形，就是下面我作标记的内容5、然后将鼠标移动到小正方形处，待鼠标变成斜线箭头，我们就可
css外部样式的reset.css是干嘛的？
Reset是重置的意思。现在的浏览器五花八门，光ie就有好多版本，还有火狐，Chrome等等。每个浏览器的默认样式也是不同的。所以就要考虑一个兼容问题。比如你用ie打开网站正常，但是用火狐或其他浏览器打开的时候，网站就变形了。这些都属于兼容
小米手机屏幕摔坏了怎么连接电脑？
在电脑使用“小米助手”即可连接。1、小米助手是专为小米手机定制的，连接手机是不需要开启USB调试开关的。看下图，USB没有打开也可以成功连接手机。2、首先需要电脑在小米官网下载小米助手软件，并打开。首次进入程序，欢迎页面会提示将手机与电脑链
css移动端的兼容性问题（适配问题）
css移动端的兼容性问题（适配问题）一、浮动问题简述：我们在平时切页面时,经常会出现用完浮动(float),忘记删除.下面的布局出现莫名其妙的空白高度,导致布局调整失败避免使用浮动二、链接: http:
如何使用电脑连接手机上无线网？
具体设置方法如下：1.打开手机的移动网络。2.开启手机的"个人热点"。3.设置个人热点的密码。4.打开笔记本电脑的无线网络，搜索并连接上述步骤中设置的热点名称。5.输入密码，连接网络，然后笔记本就可以上网了。1、先打
steam隐藏的游戏怎么显示出来
方法：1、首先可以点击”库“来查看已经购买的游戏，或者收藏的游戏。发现这时库中并没有游戏，说明游戏被隐藏了。2、接下来点击Steam最上面的菜单栏，选择”视图“，视图设置中可以管理在Steam平台上游戏的查看方式和查看内容。3、在视图菜单
怎样去掉图片上的水印
ps里面的修复画笔工具、矩形选框工具仿制图章工具和修补工具都可以去除水印，本答案通过win10电脑进行演示操作，提供了四种去水印的方法。工具原料：Lenovo天逸510SWindows10Photoshop2021方法一：修复画
电脑怎么投屏到电视上
电脑投屏到电视首先可以直接通过HDMI线将电脑和电视相连即可，其次如果电脑是win10系统，可以将电脑和电视连接到同一网络，点击想要投影的文件右键选择播放到设备即可实现投屏，最后通过第三方软件也可以实现投屏。电脑投屏电脑三种方法HDMI电缆
电脑画质怎么调高些?
具体步骤如下：1.首选进入游戏画面，用默认的数值，先看看自己游戏的流畅度，卡顿的话就要调低画质，流畅的话我们就尝试着调高画质。2.先来说电脑低配版如何调画质。首选将'可视距离'调到极致，这个可以增加我们方便观察远方情况
电脑屏幕锁定的快捷键是什么？
“win+L”按键。工具原料：电脑一台，键盘一个以windows10操作系统为例一、找到键盘上面的win系统按键，找到后注意其位置。二、找到键盘中间L字母按键，并记住其所在位置。三、按住win系统按键的同时轻按键盘上L字母按键，此时
激光祛斑后能对着电脑吗
激光祛斑之后不建议长期面对电脑，应该注意防晒和辐射，建议多休养。祛斑术后的8小时之内不要洗脸，8小时之后用的清洁产品清洗。接受激光祛斑治疗后，在千万不要用自行涂抹其它肴物或化妆品。治疗部位对阳光会很敏感，治疗后要涂抹物理防晒霜。同时尽量避免
华为Mate7怎么连接电脑
一：在连接电脑前需要对手机进行设置的，设置的步骤如下：1.首先点击“设置 &gt关于手机”，再连续点击“版本号”7次，将会提示进入了开发者模式了。2.然后返回“设置”列表，会新出现“开发人员选项”。再点击进入“开发人员选项”，打开“
金属(js)王朝是什么?
金属王朝:时尚,潮流.爱音乐,诞生于2010年1月27日，由中国MC大嘴和时尚达人邱雨晨联合创建。金属王朝一个多么优雅而又霸气的家族名。家族代表性符号：JS王朝〃相信自己、相信金属王朝、相信我们的明天。相信2010的黑马冠军属于≤金属王朝≥
大气压力是多少mpa
1个大气压是0.1013MPa。一个标准大气压等于760毫米高的水银柱的重量，它相当于一平方厘米面积上承受1.0336公斤重的大气压力。国际上统一规定用"百帕"作为气压单位。经过换算：一个标准大气压=1013百帕（毫
问下大家，大家连接声卡用的哪个驱动呀？
我用的是驱动人生来连接的声卡，有了它之后再也不用担心安装不上驱动或者软件，声卡突然断联也能很快找到原因，而且它还能兼容各种系统，Win8、Win10系统都能兼容，我们日常的需求它都能满足。直接百度下载一个。1.福克斯特。福克斯是一家老牌声卡
2021笔记本电脑排名前十的品牌有哪些？
笔记本电脑排名前十的品牌有：联想、华硕、惠普、宏碁、DELL、神舟、海尔、Sony、苹果、东芝。在过去的十几年里，联想集团一贯秉承“让用户用得更好”的理念，始终致力于为中国用户提供比较新比较好的科技产品，推动中国信息产业的发展。面向未来，
win7怎么设置电脑共享
具体解决方法操作步骤如下：1、点击“开始”→“控制面板”。2、右上角查看方式选择“类别”，在“网络和Internet”中“选择家庭组和共享选项”。3、选择“更改高级共享设置”。4、选择“启用网络发现”“启用文件和打印机共享”“关闭密码保护
html 中scroll 有什么用
scroll是说滚动条长再0-21px范围内html：&ltdiv class="feed-new-title"&gt&ltdiv class="fliter-box"&
学电脑有哪些专业？
计算机科学技术专业的方向分为：1、在软件方向方面：软件开发在IT行业中是一个高薪资的行业，只要你能够具备相应的软件开发技能，就完全能够胜任软件部经理，技术总监等职位2、在网络方向方面：就业方向有网络技术公司，或者各大企业公司，政府机
戴尔台式电脑升级系统怎么办
1. 戴尔电脑可以在官方网站升级操作系统不可以。更新操作系统必须通过windows自带的系统更新安装，或者购买正版光盘安装。也可以下载系统，自己安装系统。安装系统有以下几种方式：首先进入BIOS设置光驱优先。安装系统1）首
电脑显示请检测设备是否连接是啥意思
设备管理器里面查看USB接口，当插入设备的时候，接口方面是否有新项添加进去。如果有并且无问号提示，USB口应该是正常的。然后回到BIOS里面，查看下bios中的设置，看USB口是不是被禁用了。其它方面的话驱动应该没问题的。电脑主机在加电后
天锦风神四缸180法士特8js85e，原车4.33速比改成4.875可以吗？倒短不跑长途，
六档拉不动还有54321档啊！上坡不可能用八档上吧！风神4H发动机的经济转速是1500到1800，4.875的区别不是很大，没必要花那个钱。来自卡车之家用户的回答东风风神AX7来自东风二号军工平台，其越野型、动力性、可靠性、信息化等方面的
电脑清灰怎么清
电脑清灰操作具体如下：笔记本清理灰尘前的准备工作：笔记本开盖螺丝刀(一般选用十字或一字螺丝刀均可)、酒精以及小刷子、卫生棉或者纱布、准备吹风机一台、CPU散热硅胶以及一些轮滑机油。1、使用十字螺丝刀将笔记本背部散热器模块后面的螺丝拆开(建议
怎样找出电脑中隐藏的视屏文件
寻找电脑中隐藏的视频文件，需要在文件夹查看中勾选隐藏的项目。以win10为例在文件夹查看中勾选隐藏的项目选项步骤如下所示：1、点击打开此电脑，进入设备和驱动器页面。2、在设备和驱动器页面点击查看选项卡。3、在查看选项卡中勾选隐藏的项目，
组装电脑哪个牌子好
问题一：组装电脑和品牌电脑哪个好目前所有的品牌机都是组装机,只不过品牌机是大批量采购组装后经过测试,印上自己的品牌. 1. 稳定性方面:品牌机的配件采用大批量采购的方式,有自己独立的组装车间和测试车间,有自己的品牌理念.自己组装机需
电脑微信怎么多开
如下：工具／原料：ASUS-FX50、Windows10、微信版本3.4.5。1、先鼠标选中微信图标点左击，只需要点击一下选中即可。2、选中然后一直按【Enter】回车键，这样即可打开多个登陆窗口。3、然后打开手机微信扫描电脑端登录二维

推荐阅读

热门文章

最新发布

标签列表

java中几种解析html的工具

给您推荐相同类型的内容：