java中几种解析html的工具

2023-02-18 14:43:02html-css033

java中几种解析html的工具,第1张

HTML分析是一个比较复杂的工作，Java世界主要有几款比较方便的分析工具：

1.Jsoup

Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是，可以用于支持用jQuery中css selector的方式选取元素，这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla"

Document doc = JSoup.parse(content)

Elements links = doc.select("a[href]")

Jsoup还支持白名单过滤机制，对于网站防止XSS攻击也是很好的。

2.HtmlParser

HtmlParser的功能比较完备，也挺灵活，但谈不上方便。这个项目很久没有维护了，最新版本是2.1。HtmlParser的核心元素是Node，对应一个HTML标签，支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter，通过实现NodeFilter接口，可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 实现简易爬虫。

3.Apache tika

tika是专为抽取而生的工具，还支持PDF、Zip甚至是Java Class。使用tika分析HTML，需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler，解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用，我个人倒是认为对于解析html意义不是很大。

InputStream inputStream = null

HtmlParser htmlParser = new HtmlParser()

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext())

4.HtmlCleaner与XPath

HtmlCleaner最大的优点是：支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言，也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的，但是CSS Selector专门针对HTML，写法更简洁，而XPath则是通用的标准，可以精确到属性值。XPath有一定的学习成本，但是对经常需要编写爬虫的人来说，这点投入绝对是值得的。

先获取页面

String html = getContent(url, Constants.ENCODING_UTF8)

解析页面 Document doc=Jsoup.parse(html)

然后你获取相应的标签String tag =doc.getElementsByTag("title").first().text()

如果标签很多不一样你就得判断了,还有看看有什么相同的地方吧,我抓取网页数据的时候最烦的就是格式不一样的,好多标签不一样的,只能判断,找到共同点,个别的单个处理,

package test

public class JButtonTest

{

public static void main ( String[] args )

{

String regex = "[\\s\\S]+\\<property\\s+name[\\=\'\"]+label[^\\>]+\\>([^\\<]+)\\<\\/property\\>[\\s\\S]*"

String input = "<property name=\"name\">\r\nprojectNo\r\n</property>\r\n<property name=\"property\">\r\n projectNo\r\n</property>\r\n<property name=\"label\">\r\n 项目编号\r\n</property>\r\n<editor />"

System.out.println (input.replaceAll (regex, "$1"))

}

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：路由器密码在哪

# 下一篇：JAVA怎么调用C写的接口函数

给您推荐相同类型的内容：

英雄联盟js出肉装怎么出
JS现在一般的位置就是打野了，如果选择出肉装的话，那么就半肉半输出吧。建议：出门装：打野刀，红药。前中期：追猎者的刀锋、战士，电刀，攻速鞋。中后期：追猎者的刀锋、战士，电刀，攻速鞋，蓝盾，女妖，狂徒。如果要再肉一点，那么电刀可以换成日炎，但
怎么从零开始学电脑？
电脑从零开始的大概流程：1.开、关机、重启。2.计算机的基础常识：如何使用键盘(输入法)、鼠标，什么是硬盘、U盘、光盘、软盘，如何启动软件，如何操作(打开，关闭、删除、移动、重命名、编辑)文件，如何(安装、卸载)软件，如何使用浏览器(以及
数据库中.net是什么？.net对数据库有什么作用？
我来说说吧首先，.net不是一种语言，不是一种技术，而是一个平台。所谓平台，就是说在.net框架下编译出来的程序，并不是直接针对windows系统API的，而是针对.net平台的。就好像人说话，以前要说“把刀拿起来，刃放到面包上，往下用力”
什么是磁盘、软盘、硬盘？
磁盘是指利用磁记录技术存储数据的存储器。磁盘是计算机主要的存储介质，可以存储大量的二进制数据，并且断电后也能保持数据不丢失。软盘是个人计算机（PC）中最早使用的可移介质。软盘的读写是通过软盘驱动器完成的。软盘驱动器设计能接收可移动式软盘，
go语言的官网是什么?
go语言的官网是http:studygolang.comGo语言是谷歌推出的一种全新的编程语言，可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说：我们之所以开发Go，是因为过去10多年
最近我在学习Ruby语言，请问各位哪里有相关的教程书籍和相关的编辑工具？
http:book.douban.comdoulist67419?vote=N&ampck=None这个是ror学习的一些书籍其中Programming Ruby中文版(第2版)对学习ruby语言是不错的编辑工具
怎样把手机屏幕投放到电脑桌面上
1、在手机和电脑上同时下载打开相关工具。2、用手机端软件的投屏功能。3、点击扫一扫投屏，扫描电脑端的二维码，这样手机屏幕即可投放到电脑桌上。4、在手机上依次点击下方的各个功能，可看到电脑上也同步显示手机屏幕。5、还可以返回手机页面进行各种操
苹果电脑怎么查找型号
苹果电脑查找型号的方法如下：点击左上角的苹果图标，然后点击【关于本机】如图：点击后在默认的【概览】中可以看到CPU，内存，显卡，序列号等信息：再点击【显示器】可以看到显卡信息及当前分辨率，点击【显示器偏好设置】还可以对分辨率等进行设置。再点
CSS之字体图标 icon 的多种实现
什么是icon？让我们先来看一个例子：我们以为例子，图中看到的用圆圈起来的部分都是icon 这个时候你就想问了，这不就是几张图片么？不，它不是图片，而是文字什么？？这怎么可能是文字，文字怎么会是这样的？... 正如
HTML中怎么设置整个网页的大小？
window.open('page.html','newwindow','height=100,width=400,top=0,left=0,toolbar=no,menubar=no,sc
电脑备份不了是怎么回事
电脑不能备份的解决方式如下：1、开机按F8不动到高级选项出现在松手，选“最近一次的正确配置”回车修复。 2、请开机按F8进入到安全模式中用系统自带的系统还原，还原到你没有出现这次故障的时候修复（或用还原软件还原系统）。 3、如果故障依旧，使
怎么强制卸载软件
电脑软件怎么强制卸载1、使用第三方软件：360安全卫士、QQ电脑管家、金山卫士等软件管家都具有软件卸载功能，下面以360示例。2、我们在桌面上打开360安全卫士，在主界面右上角点击设置。3、再点击基本设置里面的系统右键菜单，然后把系统右键菜
r语言如何导入excel数据
R语言可以使用read.xlsx()函数来读取excel数据文件，也可以使用read.csv()函数来读取csv格式的数据文件。此外，还可以使用R包RODBC来连接数据库，从而将数据文件存储在数据库中，便于管理和操作。另外，还可以使用R语言
笔记本电脑突然黑屏是什么原因?
原因和解决方法如下：目前造成计算机黑屏的原因主要有两个，一是硬件的故障，二是软件的冲突，而二者的区别主要在于发生黑屏的位置，即是在开机时发生黑屏，还是在正常启动机器后，在使用的过程中出现黑屏。一、黑屏硬伤 1、在开机后突然出现“黑屏”的时
dw中css样式中图片下面的横线怎么设置
css中使用textdecoration属性就可以直接设置划线效果。对字体样式文本加下横线款式，有二种方式，一直立即应用html下横线标识，此外一种是应用CSS下横线款式。这个属性允许对文本设置某种效果，如加下划线。。如果后代元素没有自己的
python语言基础知识有哪些？
python语言基础知识如下：1、Python语言是一种解释型、面向对象的编程语言，是一种开源语言。2、表达式从左到右在同一个基准上书写。3、对象的含义：对象是某个类的实例，对象由唯一的id标识，对象可以通过标识符来引用，对象引用即指
联想笔记本电脑哪个系列最好
联想笔记本电脑最好的系列如下：一、普通系列1、联想G系列G系列的做工一般，外观普通。综合处理能力中等、显卡为入门级显卡，散热不太好，但是价格便宜，满足日常用。2、联想小新系列小新系列细节质量一般，综合处理能力中等，显卡为性能级别显卡，
怎样重装电脑系统？
朋友,你好,如果你想重装系统,我教你几种方法,一定对你终生有用,而且有简单和复杂,你可以选择性学习:(只要你仔细跟着做,就一定学得会)给电脑重做系统一共有六种方法：比如分为：光盘法（分为原盘和GHOST盘两种），U盘法，硬盘法（也叫一键还原
电脑绘画用什么工具
问题一：初学电脑绘画用什么软件和电脑画板技术方面：手绘基础扎实！硬件方面：电脑、压感笔、专业显示器（保证不偏色的）压感笔又叫数位板，初学推荐你两个牌子的，一个是wa的bamboo系列，大概七八百的样子，另外一个就
如何在HTML中将DIV中的对象居中？
1、举个例子,在HTML中的body标签里面写上div标签对&ltdiv&gt&ltdiv&gt。2、然后我们给div设置宽高，需要注意，如果不设置宽度默认是100%的哦，这样就会占满整个页面。3、然后，我
各大牌子笔记本电脑的标志图片有哪些？
大品牌标志如下；ASUS（华硕）Acer（宏碁）Apple（苹果）BBenQ（明基）CColorful（七彩虹）DELL（戴尔）DELUX（多彩）GIGABYTE（技嘉）HP（惠普）Haier（海尔）HEDY（七喜）l
html和css还有图片怎么上传到服务器里面
所有文件都是上传到web目录里的，它是网站的根目录。log目录和data目录是系统的保留目录，网站是不能直接链接到这两个目录的，它们也是不占用你的网站空间的。log目录用来存放运行日志（服务器自动生成），data目录则通常用来存放文件型数据
电脑上怎么操作股票
首先要在电脑上下载股票交易软件，可以下载自己开户的证券公司的对应的炒股软件，也可以下载同花顺、大智慧等炒股软件，登录时选择对应的证券公司，输入资金账户和密码登录。登录之后在自选股页面可以添加自己关注或者想要购买的股票，点击查看该股的相关信息
可以插卡打电话的平板有哪些
可以插卡打电话的平板有三星P1000（联通3G手机平板电脑），华为S7（联通3G手机平板电脑），中兴T9（移动G3手机平板电脑），戴尔STEAK MINI5（联通3G手机平板电脑）等。能插卡的平板有很多，比如三星P1000（联通3G手机平
电脑自带的小游戏有哪些？
每台电脑里都是携带一些自备的小游戏，例如纸牌，扫雷等等。找到电脑单机小游戏。打开电脑。点击桌面左下角的”开始“按钮。点击“所有程序”。找到“游戏”。点击该文件夹，即可找到该电脑自带的所有单机小游戏。《蜘蛛纸牌》(AncientSpider)
电脑上怎么玩ios手游
打开想要下载的游戏的官网，点击“PC模拟器下载”即可。在电脑上使用iOS系统玩手游一直不少玩家们的愿望，不论是想体验iOS手游，还是想再开个小号，模拟器都是一个可以更低成本实现在电脑中玩手游的方案。然而，苹果iOS系统受限于未开源的环境，
华为手机桌面小艺建议怎么删除
华为手机删除桌面小艺建议需在桌面界面中完成，这里以华为手机的操作举例，通过3个步骤操作完成，具体操作如下：工具原料：华为P50Pro、HarmonyOS2.0.0、小艺建议。1、长按卡片首先在桌面上，长按住小艺建议的卡片。2、点击移
JAVA怎么调用C写的接口函数
要不就使用内部类要不就在Customer里面定义一个Cart类的对象。也可以把你需要的方法定义成静态方法publicstaticvoidxxxx()Class.xxxx()来调用。。。C#调用Java实现的WebService接口的步骤：方
电脑如何强制关闭程序
windows中强行关闭当前程序的快捷键有以下5种方法，可以根据自己实际情况选择：1、按alt+f4键。2、ctrl+shift+del键。3、点击键ctrl+shfit+esc键，选择你要关闭的程序，结束任务，即可强制关闭程序。4
XP忘记开机密码怎样解决？
xp忘记开机密码的解决方法如下：一、在进入用户登录界面后，系统提示用户输入密码，先用鼠标光标选中白条处，显示为输入状态二、同时按下Ctrl+Alt+Delete组合键，重复按下3遍登录到windows提示界面，在用户名栏中填入Admini

推荐阅读

热门文章

最新发布

标签列表

java中几种解析html的工具

给您推荐相同类型的内容：