java中几种解析html的工具

2023-03-05 00:42:01html-css023

java中几种解析html的工具,第1张

HTML分析是一个比较复杂的工作，Java世界主要有几款比较方便的分析工具：

1.Jsoup

Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是，可以用于支持用jQuery中css selector的方式选取元素，这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla"

Document doc = JSoup.parse(content)

Elements links = doc.select("a[href]")

Jsoup还支持白名单过滤机制，对于网站防止XSS攻击也是很好的。

2.HtmlParser

HtmlParser的功能比较完备，也挺灵活，但谈不上方便。这个项目很久没有维护了，最新版本是2.1。HtmlParser的核心元素是Node，对应一个HTML标签，支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter，通过实现NodeFilter接口，可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 实现简易爬虫。

3.Apache tika

tika是专为抽取而生的工具，还支持PDF、Zip甚至是Java Class。使用tika分析HTML，需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler，解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用，我个人倒是认为对于解析html意义不是很大。

InputStream inputStream = null

HtmlParser htmlParser = new HtmlParser()

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext())

4.HtmlCleaner与XPath

HtmlCleaner最大的优点是：支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言，也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的，但是CSS Selector专门针对HTML，写法更简洁，而XPath则是通用的标准，可以精确到属性值。XPath有一定的学习成本，但是对经常需要编写爬虫的人来说，这点投入绝对是值得的。

不违法，tika语音是正规的。

TiKa语音，支持语音社交、休闲游戏等场景，年轻人的语音扩列交友平台。拥有多人语音互动以及聊天等玩法，TiKa提供组队开黑、玩伴速配、娱乐互动、电子竞技等多种娱乐方式，提供了麦序麦位，适合多种不同的线上互动方式。

还有专属扩列频道，可以进行声音交友，刷一刷即可遇见同城好声音，轻松开启交友之路。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：怎么让Eclipse Adt支持HTML5新增的标签

# 下一篇：关于Ruby

给您推荐相同类型的内容：

变速箱12JSD200TA是什么意思？
变速箱12JSD200TA的意思是带同步器超速档。以下是变速箱型号标识结构的具体含义：,1、12代表前进档的个数。,2、J代表挂档方式是机械挡式。,3、S代表双中间轴，就是两个付轴。,4、D代表加大中心距就是加大付轴的轴承孔的中心距离。,5
用java读取一个txt文件之后，怎样把文件中的内容清空？
你直接new一个相同文件就会将旧文件清空。比如：OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream(outputPath), "utf-8&qu
电脑切换用户后怎么切换回来
本视频是由Dell灵越5000&amp&ampmacbookair品牌、Windows10&amp&ampMACOS10.10.5系统录制的。产品型号：Dell灵越5000，macbookair
lpl战队中哪一家目前实力较高？
通过这届德杯可以看到，各个战队的实力起伏还是比较明显的。所以通过这届德杯所展现出来的东西，我大概做一个不靠谱的猜测吧！第一梯队：JDG、EDG、VG、FPX这四个队目前展现出来的东西，是非常强劲的个人实力，和节奏掌控能力。尤其是VG，进步最
华为Mate8应用角标怎么关闭应用角标关闭方法
在主屏幕中，应用程序图标右上角的角标可以快速了解新通知情况。角标的数字代表提醒消息数量，打开有提醒的应用程序，可查看提醒详情。关闭角标方法如下：1、在主屏幕，两指合拢进入主屏幕编辑模式。2、点击设置 &gt 图标角标。3、根据需要
关于嵌入式学习的视频的网站
ARM嵌入式培训视频1：http:v.youku.comv_showid_XNjAzMjk0NTY=.htmlARM嵌入式培训视频2：http:v.youku.comv_showid_XNjAzMjk3ODQ=.htmlAR
平价平板推荐
平价平板推荐：1、苹果 iPad mini 2这款平板电脑现在价格在2138元起，因为它是用Retina显示屏幕但是价格却是最低的苹果平板电脑，性价比很高。采用iOS8系统，保证能带来好的系统体验；处理器是用A7和M7相结合的方式，性
GO语言入门，有什么好的教程啊？
可以学习黑马程序员的这个教程20小时快速入门go语言：网页链接go语言的优势可直接编译成机器码，不依赖其他库，glibc的版本有一定要求，部署就是扔一个文件上去就完成了。静态类型语言，但是有动态语言的感觉，静态类型的语言就是可以在编
java算法题——龟兔赛跑
public class Test1{public static void main(String[] args) throws InterruptedException { int v1=25,v2=10,t=20,s=3,l=
《Go程序设计语言中文版》pdf下载在线阅读全文，求百度网盘云资源
《Go程序设计语言中文版》百度网盘pdf最新全集下载:链接：https:pan.baidu.coms1K2XHYlNbRyQMiBkckaPr7A?pwd=0cii 提取码：0cii简介：本书由《C程序设计语言》的作者Kernig
戴尔G3和小米Ruby哪个更好点，哪个性价比更高
首先我们先分别看一下其性价比（售价我们以京东的为准进行对比），第一个：戴尔G3戴尔DELL游匣G3烈焰版 15.6英寸游戏笔记本电脑(i5-8300H 8G 512GSSD GTX1050Ti 4G独显 72%NTSC IPS)网址：
css中 div 与span有什么区别？
div是块级元素，它不论大小默认占一行，而且可以设置宽高以及外边距span是行内元素，它占它自身大小的位置，而且不能设置宽高以及边距同时div也可以变为span (display:inline),这样div将变为行内元素span也可以变为d
英文动画推荐02:Max & Ruby（2-8岁）
2012年3月6日（女儿不到2岁）记录：上次介绍了适合英语启蒙的动画Peppa Pig，这次再介绍一部同样适合启蒙的英文动画片Max &amp Ruby。可以说，这两部动画奠定了女儿英文听说的基础。这是一部基于Rosemary We
用html5开发手机网站，div的高度与宽度比例怎么来设定
div的100%是从其上一级div的宽高继承来的，有一点很关键，就是要设置div100%显示，必须设置其上一级div的宽度或高度，否则无效。举例说明：父div(deman)宽300高200，子div(cc)如果在这个条件下设置divcc的宽
JAVAEE 主要学什么内容具体点
JavaEE技术的学习内容：Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、IO与发射，多线程、swing程序与集合类；第二阶段HTML、CS
在向数据库插入数据时，如何在java方法中实现id有序自增
@Entitypublic class Goods implements Serializable{@Id@GeneratedValueprivate Integer idprivate Integer gooodsType品种priv
rpm包html界面渲染慢
1．把 CSS 资源引用放到 HTML 文件顶部一般推荐将所有 CSS 资源尽早指定在 HTML 文档中，这样浏览器可以优先下载 CSS 并尽早完成页面渲染。2．JavaScript 资源引用放到 HTML 文件底部JavaScript 资
厨房防水材料有哪些？哪种效果好？
厨房常见的防水材料有砂浆防水剂，K11防水浆料还有少部分的仍旧坚持使用防水卷材，但是因为考虑到与墙面的粘合力，强度，耐穿刺，施工难易程度，性价比，防水年限等问题，推荐使用砂浆防水剂，当人相对来说砂浆防水剂的方式年限也是最久的！酒精喷雾怎么打
怎么辨认打孔机、翻新机
1 最简单的方法：买行货。2 一定买水货就让店家拆机看。3 实在不行就自己看看螺丝是不是被拧过。螺丝是T字的，如果螺丝有的是T5，有的是T6，一定是翻新机。4 电池接口，数据线接口有磨损痕迹一定是翻新的。5 还可以闻气味。新的电子产品会有香
电脑版吃鸡游戏都有哪些啊，推荐个
具体内容如下:1.绝地求生，目前只能在steam平台上玩，收费游戏，（腾讯已代理国服，但开服时间还得等官方发布）2.荒野行动，电脑手机上都可以玩3.H1Z1，曾经很火的“吃鸡”类的生存游戏。4.荒野行动5.终结者6.绝地求生全军出击7.绝
如何在html页面读取 config.php 文件中定义的配置信息
这个问题其实实质就是html与php的数据交互问题，目前常用的数据交互方法是ajax，不想用框架可以用原生js的ajax进行数据交互，但是需要config.php将数据提交给html文件，想用框架的话数据交互方式就比较多，angular.j
圣少女的资料
【内容简介】夜幕低垂，月影婆娑，总有一抹幽幻的倩影穿梭于圣华市，她就是侠义有道的圣少女，一次一次成功地解救濒临危机与困苦中的人们。圣少女是一个怪盗!她在晚上出现。她劫富济贫、行侠仗义、惩恶扬善。人们都亲切地叫她“圣少女”。其实这个现代的罗宾
电脑的内存怎么看
集体操作如下：1.在桌面按下“Win+R”，打开运行窗口。2.输入“dxdiag”，点击“确定”。3.在弹出来的页面中即可看到电脑内存。使用相关的软件查看一下原有的笔记本内存型号，不同型号的笔记本内存不可混用。特别要注意的是最好装同一种频率
关于Ruby
Ruby on Rails是一个用于编写网络应用程序的框架，它基于计算机软件语言Ruby，给程序开发人员提供强大的框架支持。Ruby on Rails包括两部分内容：Ruby语言和Rails框架。什么是Ruby?Ruby 语言是一种动态语言
HTMLCSS中，如何改变文字选中时高亮颜色？
可以高亮啊，而且工具有很多的先把PDF文件打开在选择高亮，在工具下面的高亮文本工具哪里点击进去选择高亮，在需要的地方画下，可以添加多处的把PDF文件保存sublime text 2不需要装插件就可以使css3代码高亮显示的。设置方法
【R语言入门与数据分析-5】数据分析实战
老师的吐槽大会，乐死我了。hhh regression，通常指用一个或者多个预测变量，也称自变量或者解释变量，来预测响应变量，也称为因变量、效标变量或者结果变量的方法存在多个变量 AIC 考虑模型统计拟合度、用来拟合的参数数目
ruby on rails 中间表额外字段如何操作?
1.使用 text_field_tag :num controller里取得中间表对应得那条(之后称为 xxx) update_attribute('num',params[:num])2.使用 text_field
css可以让网页文字闪烁吗？
这句css代码就是文字闪烁text-decoration:blink不过很可惜，IE、Chrome 或 Safari 不支持 "blink" 属性值，所以只有在 Firefox 和 Opera 下支持这 CSS 实现在闪
北大青鸟设计培训：网页开发的CSS代码怎么写？
随着Internet编程技术的不断发展，越来越多的大学毕业生加入了Web开发行业中，我们都知道Web开发需要使用css进行定位和布局。下面，沈阳北大青鸟带大家来看看如何编写css代码。前端系统的变化可以描述为每天都在变化。在短短的一年时间里
华为云电脑有什么用
华为云电脑有以下作用：1、移动办公借助轻便的华为终端平板，可以随时随地通过互联网接入云端电脑进行办公，使用云上更丰富的计算资源和存储资源。2、统一存储集云硬盘与终端本地存储于一身，在云端电脑便可以轻松管理照片、视频、文档等资源。云硬

推荐阅读

热门文章

最新发布

标签列表

java中几种解析html的工具

给您推荐相同类型的内容：