java中几种解析html的工具

2023-02-18 12:52:02html-css051

java中几种解析html的工具,第1张

HTML分析是一个比较复杂的工作，Java世界主要有几款比较方便的分析工具：

1.Jsoup

Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是，可以用于支持用jQuery中css selector的方式选取元素，这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla"

Document doc = JSoup.parse(content)

Elements links = doc.select("a[href]")

Jsoup还支持白名单过滤机制，对于网站防止XSS攻击也是很好的。

2.HtmlParser

HtmlParser的功能比较完备，也挺灵活，但谈不上方便。这个项目很久没有维护了，最新版本是2.1。HtmlParser的核心元素是Node，对应一个HTML标签，支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter，通过实现NodeFilter接口，可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 实现简易爬虫。

3.Apache tika

tika是专为抽取而生的工具，还支持PDF、Zip甚至是Java Class。使用tika分析HTML，需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler，解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用，我个人倒是认为对于解析html意义不是很大。

InputStream inputStream = null

HtmlParser htmlParser = new HtmlParser()

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext())

4.HtmlCleaner与XPath

HtmlCleaner最大的优点是：支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言，也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的，但是CSS Selector专门针对HTML，写法更简洁，而XPath则是通用的标准，可以精确到属性值。XPath有一定的学习成本，但是对经常需要编写爬虫的人来说，这点投入绝对是值得的。

感觉上你这里应该是有点问题的：

一、你在while判断的时候会让reader往后读一行的数据；然后在里面执行的时候又走一行；这就可能出现原本你的while里面判断的时候有值，但是在里面执行的时候已经没有值了。

二、如果你的文件里面有一行是空的，不满足while的条件，是不是程序到这里就被中断了呢？

其他的问题也没有发现什么。你看一下吧。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：如何查询电脑操作系统是多少位的？

# 下一篇：电脑网络连接出现感叹号是什么原因？

给您推荐相同类型的内容：

国产电脑操作系统到底哪家强？
这里盘点一下目前主流的国产操作系统，它们各有所长，排名不分先后。另外一点，国产操作系统大多是基于Linux开源内核开发的。1、优麒麟（UbuntuKylin）该系统由工信部软件与集成电路促进中心、国防科技大学联手打造，针对中国用户定制，
电脑怎么装安卓系统?
问题一：普通电脑可以安装安卓系统吗？可以用安卓模拟器安装，直接没法安装，硬件架构不一样。问题二：怎么用手机给电脑装系统？把内存卡插在读卡器上，相当于是一作U盘。用U盘安装系统1、制作启动盘。（W7系统4G U盘，XP系统
跟电脑下象棋技巧
下中国精于象艺的棋手，人材辈出。下面我给你介绍跟电脑下象棋技巧，欢迎阅读。跟电脑下象棋技巧棋力最强的中国象棋软件，可以说绝大多数人都不是对手。最近两年，就连围棋也出现了棋力很强的软件，可以对抗一部分业余高手。
电脑内容如何投影到乐视电视
拿过来电视的遥控器，按键“信号源”，选择HDMI，电脑内容就出来了。你电脑就只插了这一条HDMI吧，没有再连显示器吧？那就不用设置啥。如果还有显示器，那就按键盘的win+P，设置“仅投影仪”，画面就到了电视上。电脑上有HDMI接口，使用HD
怎样在电脑上登录微信账号
在电脑上登录微信的方法如下：双击桌面的微信图标，运行微信。如果是第一次登录，会出现二维码。打开手机微信的扫一扫，扫码登录；扫描后，在手机上点击确认以登录；在手机上打开微信，出现登录确认界面，点击登录，可以开始使用。如果不是第一次登录，运行微
电脑网络连接不上怎么回事
我们生活在互联网时代，网络进入千家万户以及各行各业，我们在使用网络中有时无线网连不上去，产生该故障的原因由以下方面引起的:1、路由器出现故障:最可疑的就是电源系统，所以首先应该检查的就是电源系统，看看供电插座有没有电流，电压是否正常，如果供
笔记本电脑提速方法有哪些
电脑开机速度慢，运行多个程序时一卡一卡的，无论谁都会感觉很不爽，其实很多方法就可以让自己电脑提速不少，下面就让学习啦我给大家说说怎么让你的电脑提速吧。笔记本电脑提速方法【一】1、使用360卫士或者金山卫士的'垃圾清理功能
javascript验证表单输入网址
&lt!DOCTYPE html PUBLIC "-W3CDTD XHTML 1.0 TransitionalEN" "http:www.w3.orgTRxhtml1DTDxht
友华wr1200js路由器怎么设置
这款机器的IP是：192.168.2.254登录ID和密码还是：admin如果是密码忘了，用牙签戳后面小孔5秒以上，看指示灯全熄重启以后，重新登录设置就可以了。哇，买js签名系的，和我一样都迷老乔啊～你去听老乔演唱会那声，比vai不知强几倍
电脑桌面图标下面出现蓝色阴影是怎么回事？
通常情况下桌面图标变成蓝色背景是由于一些错误的设置而导致的，解决方法如下：第一种情况:勾选了“在桌面上锁定WEB项目”造成的“桌面图标有蓝色阴影”如图:解决方法:右键单击桌面--排列图标--在桌面上锁定WEB项目前的对勾去掉。（电脑速度
c语言怎么编写？
#include&ltstdio.h&gt#include&ltstring.h&gt#include&ltstdlib.h&gtchar fun(char *a,char *b){c
php如何实现视频聊天？
1，配置文件复制代码代码如下:&lt?phpdefine('PATH',dirname($_SERVER['SCRIPT_NAME']))聊天室目录define('CHAT_NA
家里两台电脑怎么连局域网？
电脑连接局域网的方法：在使用电脑时，常常会需要在两台电脑间进行文件的传输，不够有时候会因为没有U盘、文件太大等原因，碰到一定的麻烦。其实，可以通过局域网方便地进行文件的传输。电脑的左下角选择开始键，在开始菜单中选中控制面板，打开控制面板。
为什么电脑插上耳机没声音
电脑耳机插上没有声音的原因可能有：1、没有音频播放。2、音量太低或静音。3、电脑声卡损坏。4、电脑耳机插孔或线路开路。5、耳机已损坏。电脑耳机插的方法如下：1、先看看耳机的插头，粉红色的是麦克风插头，上面有麦克风的图案。黑色的
怎么查看自己电脑里的历史记录?
1.有时候前几天浏览过的网页忘记了地址，这时就可以通过查询历史记录来找到前几天浏览过的网页：（1）在浏览器右上角找到“工具”并点击一下。（2）点击后出现一个下拉框，找到“历史记录”并点击。（3）进入后会发现很多历史
电脑如何设置两个显示器
1、首先，我们在桌面的空白处右击，选择“屏幕分辨率”，打开“更改显示器外观”窗口。2、这时候系统会自动默认一台显示器用来显示任务栏。3、如果要更改此选项，可以点击窗口中的显示器图标，选择需要放置任务栏的显示器。4、如果无法确认是哪个显示器，
电脑怎么恢复出厂设定有几种方法
计算机内置的 F10 系统恢复出厂设置功能，能短时间内帮您将计算机系统恢复到初始状态。一、F10 恢复出厂设置操作前须知：1.系统恢复出厂会删除 C 盘中数据（包含桌面文件、下载、文档等）和安装在 C 盘的软件，您可以勾选备份 C 盘个人文
电脑下面的任务栏怎么调整位置
调整方法如下：1、右键单击任务栏上的空白区域，然后选择“任务栏设置”。2、展开“任务栏在屏幕上的位置”下的下拉菜单，然后选择相应的一侧。3、提示：从四个边中进行选择：靠左、顶部、靠右和底部。1、鼠标右键点击桌面上的计算机选项，并点击页面上的
变速箱电脑板坏了症状
变速箱的电脑简称tcu。如果tcu损坏，变速箱无法正常换挡，此时汽车无法正常行驶。只有配自动挡的车才有tcu，手动挡的车没有tcu。Tcu是自动变速器的大脑。自动变速器的tuc可以通过各种传感器采集数据，经过处理后由执行器控制变速器。
.NET是什么语言?
。net是微软新一代的编程架构，不仅仅是vb的升级，采用.net的新运行库，有很多地方都不同。开发工具例如microsoftvisualstudio，里面带有vb.net和c＃.net两种编程工具，分别对应于vb语言和c#语言。.NET是微
我想问一下有什么软件可以直播
可以直播的软件有虎牙直播、斗鱼、快手、抖音、花椒CC直播app、熊猫直播app、一直播app、石榴直播app等。软件（software）是一系列按照特定顺序组织的电脑数据和指令，是电脑中的非有形部分。软件一般被划分为系统软件、应用软件和介于
腾讯视频怎么下载到本地电脑腾讯视频下载到本地的方法教程
腾讯视频下载到本地电脑的步骤如下：操作演示的腾讯视频软件的版本：2022.11.551、打开电脑腾讯视频，通过搜索或者主页找到你要下载的视频，然后点击打开。2、打开这个视频以后，点击上方的下载标志，如下图：3、这时候会弹出选择框，勾选想
Html+CSS | 1段CSS让表格更漂亮建议收藏
使用border-collapse: collapse去掉表格线间的空白。使用:nth-child(even)选择表格中的偶数行，进行修改背景色，如果选择奇数行，使用odd选择奇数。使用:last-of-type选择最后一个元素
电脑网络连接出现感叹号是什么原因？
原因可能是电脑的IP地址和网关错误或者DNS故障导致的。可以参考下面方法处理：操作工具：电脑win71、首先如图，电脑上的网络连接出现了黄色感叹号。2、然后鼠标右击网络图标，在出现的界面中点击【打开网络和共享中心】。3、在网络和共享界面中可
html怎么设置字体大小和颜色
1、先在HTML网页编写一些测试的文字。 2、然后在网页预览文字初始的字体效果，颜色是黑色，大小比较小。 3、因为测试文字是在body标签内的，所以我们要对body标签设置css属性就可以了。4、我们可以用font-fami
怎么设置漂亮的表格的样式 css
下面来个例子，你可以复制到你的编辑器里修改测试&ltstyle type="textcss"&gttable.gridtable {}{font-family: verdana,arial,sans-s
哔哩哔哩怎么电脑直播
你好，哔哩哔哩直播功能适合上传带宽能够达到2M以上的用户使用。直播需要使用到第三方直播录像软件(OBS、XSpliter等)，以下主要介绍如何使用OBS来进行直播。OBS下载，OBS目前适用于Windows Vista，Windows 7
nodejs把配置转ts
使用Node.js可以将配置文件转换为TypeScript(TS)的代码。可以在 npm 上安装一些插件，如ts-node或tsify 来实现这个目的，也可以使用支持TS语法的编辑器，如Visual Studio Code来实现此功能。1.
在Element表格中插入步骤条，并实现样式定制化
最近项目的原型设计中有这样一个需求，在表格中插入一个步骤条，先贴一张完成的图片，效果如下：开始做的时候，查看了一下element官方文档（传送门： Element官方文档），官方文档中只有一些比较基本的样式，例如：描述的步骤
css如何实现在edge下切换输入法
ctrl+shift。在css中，ctrl+shift是默认设置的输入法可以来回切换的组合键。层叠样式表是一种用来表现HTML（标准通用标记语言的一个应用）或XML（标准通用标记语言的一个子集）等文件样式的计算机语言。CSS不仅可以静态地修

推荐阅读

热门文章

最新发布

标签列表

java中几种解析html的工具

给您推荐相同类型的内容：