java中几种解析html的工具

2023-02-18 14:45:02html-css0171

java中几种解析html的工具,第1张

HTML分析是一个比较复杂的工作，Java世界主要有几款比较方便的分析工具：

1.Jsoup

Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是，可以用于支持用jQuery中css selector的方式选取元素，这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla"

Document doc = JSoup.parse(content)

Elements links = doc.select("a[href]")

Jsoup还支持白名单过滤机制，对于网站防止XSS攻击也是很好的。

2.HtmlParser

HtmlParser的功能比较完备，也挺灵活，但谈不上方便。这个项目很久没有维护了，最新版本是2.1。HtmlParser的核心元素是Node，对应一个HTML标签，支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter，通过实现NodeFilter接口，可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 实现简易爬虫。

3.Apache tika

tika是专为抽取而生的工具，还支持PDF、Zip甚至是Java Class。使用tika分析HTML，需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler，解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用，我个人倒是认为对于解析html意义不是很大。

InputStream inputStream = null

HtmlParser htmlParser = new HtmlParser()

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext())

4.HtmlCleaner与XPath

HtmlCleaner最大的优点是：支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言，也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的，但是CSS Selector专门针对HTML，写法更简洁，而XPath则是通用的标准，可以精确到属性值。XPath有一定的学习成本，但是对经常需要编写爬虫的人来说，这点投入绝对是值得的。

先获取页面

String html = getContent(url, Constants.ENCODING_UTF8)

解析页面 Document doc=Jsoup.parse(html)

然后你获取相应的标签String tag =doc.getElementsByTag("title").first().text()

如果标签很多不一样你就得判断了,还有看看有什么相同的地方吧,我抓取网页数据的时候最烦的就是格式不一样的,好多标签不一样的,只能判断,找到共同点,个别的单个处理,

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：台式电脑配置怎么选

# 下一篇：我的世界手机版枪械js下载地址及安装过程

给您推荐相同类型的内容：

一行文字跑马灯怎样用Jquery或js做？
使用方法：使用该跑马灯特效之前要先引入jQuery和marquee.js文件。&ltscript src="jquery-1.11.2.min.js"&gt&ltscript&gt&
HTML相对路径是什么意思？
简单举个例子，例如使用img标签调用demo文件夹下nihao.png图片，相对路径写法是demonihao.gif，绝对路径就是https:lanye.orgdemonihao.gif以当前的目录为出发点、访问其它目录时所用到的
微星主板怎么装系统
如果是普通电脑用户，没有电脑自安装经验，建议在Windows系统中，使用一键ghost自安装。优点是可见性和简单的步骤。一、准备：（1）备份C盘和桌面的重要文件。（2）系统下载：Ghostwin系统，版本见需要，这里以Win7为例。（3）重
电脑怎么把字体变大
电脑把字体变大的操作如下：1、首先，打开电脑，点击右键，就会出现一个对话框，在最下面有个个性化，单击‘个性化’去进行设置。2、进入了个性化设置后，可以看到左上角有个控制面板主页，点击进去。也可以从开始-控制面板里面进去，都是一样的。3、进入
小米笔记本与小米手环2如何连接解锁
小米笔记本支持使用小米手环解锁，解锁设置的方法如下：1、先打开小米笔记本的蓝牙搜索，在小米运动中打开小米手环的蓝牙广播，搜索并保持连接；2、当连接设置完成后，小米笔记本保持亮屏状态，即可发现小米笔记本上显示已准备使用小米手环2登录，则可使小
电脑怎么查看内存条
集体操作如下：1.在桌面按下“Win+R”，打开运行窗口。2.输入“dxdiag”，点击“确定”。3.在弹出来的页面中即可看到电脑内存。使用相关的软件查看一下原有的笔记本内存型号，不同型号的笔记本内存不可混用。特别要注意的是最好装同一种频率
电脑上的时间怎么调
开始---设置---时间和语言---日期和时间。1、开始→控制面板→日期、时间、语言和区域设置。2、日期、时间、语言和区域设置→区域和语言选项。3、点开自定义按钮。4、自定义区域选项→时间→点开右边的下拉菜单_会有不同的显示模式。5、自定义
电脑正常的屏幕分辨率应该是多少?
演示机型：华为MateBookX系统版本：win10电脑正常分辨率通常为1920X1080px、1366X768px、1440X900px、1600X900px等。高分辨率是保证彩色显示器清晰度的重要前提。点距基础之一，大屏幕彩色显示器的点
苹果电脑如何改id
搜索Apple ID官网，点击进入。02打开Apple ID 管理页面后，点击重设密码，输Apple ID号，点击下一步，然后选择你要重设密码的验证方法。03一般选择电子邮件验证方便一点，点击后系统就会提示你邮件已发出。04这时登录你
电脑娃娃哪集写神奇药水
电脑娃娃第38集写神奇药水。电脑娃娃第38集剧情为神奇股份公司小斌和壮壮两人搞“化学实验”，无意中研制出一种能瞬间改变衣服颜色的神奇药水，。他们反复试了几次，效果显著。熊伟和包东东得知神奇药水的事儿，非常高兴，拟成立“熊包神奇股份公司”。老
DELL是什么牌子电脑
戴尔（Dell），是一家总部位于美国德克萨斯州朗德罗克的世界五百强企业，由迈克尔·戴尔于1984年创立。戴尔以生产、设计、销售家用以及办公室电脑而闻名，不过它同时也涉足高端电脑市场，生产与销售服务器、数据储存设备、网络设备等。戴尔公司于1
HTML样式CSS的三种写法
CSS是样式层叠表，有三种引入方式。下面，我们来看看HTML样式CSS的三种写法吧。行内样式 CSS可以直接放到行内样式中引入即可，比如代码如下图： &ltp style="color: bluebackgr
如何配一台好的电脑
决定电脑性能的硬件介绍电脑中决定电脑性能的3大硬件主要是：CPU、内存条和显卡硬件。CPU是电脑的综合运算核心和控制核心，CPU是电脑中收发指令的核心硬件，CPU好比人的大脑，用户对电脑的操作是CPU执行命令，可见，CPU是电脑中最重要的性
如何设置电脑自动关机？
1、右键单击“开始”，弹出菜单选择“控制面板”，如图：2、然后点击控制面板里的“管理工具”，如图：3、在管理工具里点击“计划任务程序”，如图：4、先点击下任务计划程序库，然后在中间的空白位置点击右键，选择“创建基本任务”，也可以点击右边的“
台式电脑配置推荐
台式电脑最佳配置列表:主板推荐技嘉，CPU推荐英特尔酷睿i9-9920X十二核，金士顿)内存推荐DDR4266616GB黑客Furylightning系列，显卡推荐多彩，硬盘推荐希捷酷鱼Pro系列，显示器推荐LG。工具原材料:桌面Wind
电脑单机游戏排行榜
电脑单机游戏排行榜如下：1、益智类：极品钢琴、水果忍者、会说话的汤姆2、捕鱼达人系列、割绳子、滑雪大冒险。2、动作格斗：神庙逃亡、拳皇97、超级玛丽、跳跃忍者、CS斩首行动(3D版)。3、体育竞赛：都市赛车6、极品飞车14、战争
电脑知识与技术版面费为什么2400元
原因如下：因为这本期刊上面是都是优质内容，受众群体都是高阶，所以版面费高。《电脑知识与技术》是省级期刊，《电脑知识与技术》杂志创刊于1994年，是经国家批准的旬刊杂志，主管单位:安徽省科技厅，主办单位:安徽省科技情报学会、中国计算机函授学院
苹果电脑如何恢复出厂系统
如何恢复苹果电脑的出厂设置，只需要简单的五个步骤就可以实现。具体操作步骤如下:工具原材料:苹果macbookpro，macOSBigSur11.6.2，苹果系统11.6.2。1.备份电脑数据后，重启电脑，按command+R键。2.选择知
css图片过大怎么办白屏
原始处理方法是将要展示的图片进行处理。比如你的DIV宽度为500px(像素)，那你上传的图片或放入网页的图片宽度就要小于500px，也就是你图片需要图片软件剪切、等比例缩小方法处理后再上传、放入网页中解决撑破撑开DIV问题。常见很多大型图片
域名是什么？
域名可以简单理解为通往你网站的路，简称域名、网域，是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称，用于在数据传输时标识计算机的电子方位（有时也指地理位置）通常由一串字符和后缀组成，常见的后缀有：com、net、c
手机录音如何传到电脑上
如果您使用的是华为手机，以华为Mate 40手机为例：1、通过 USB 数据线连接手机和电脑。待电脑上的驱动程序自动安装完成后，点击此电脑（计算机），会出现以手机命名的盘符。2、从（手机）状态栏下滑出通知面板（可继续下滑），点击点击查看更多
什么游戏本可以支持Windows和linux双系统
不分游戏本，普通本，是电脑就可以支持windows和linux双系统。双系统有利于将个别潜入系统的病毒木马斩尽杀绝。我本人就是在电脑上安装的双系统，我这款ALIENWARE x15 。它采用了第11代英特尔酷睿i9处理器，使用时是非常流畅的
美团外卖商家版电脑版怎么下载?
具体下载方法如下：1、首先，在电脑上输入“美团外卖商家电脑版”点击搜索。2、在搜索结果列表中，点击一项下载进入详情页面。3、下载信息页面，点击“本地下载”。4、跳转到下载链接，点击“电信联通下载”或者“本地下载”。5、新建下载任务，点击右
surface8pro为啥那么贵
surface8pro那么贵是因为，SurfacePro8有望首次引入雷电4接口，微软将放弃多年的Surface专用接口，当然，支持雷电4也就意味着和AMD平台无缘，肯定是Intel平台，11代酷睿或者12代酷睿。同时SurfacePro8
电脑声卡什么牌子好
1.福克斯特。福克斯是一家老牌声卡制造商。它的声卡加入了AIR模式，为声音注入了活力。可以配一个挂架，实现录制k歌的效果。对于入门级录音来说，价格非常友好。其他版本只是界面不同。2.雅马哈。雅马哈也是知名的声卡厂商。有了雅马哈声卡，你可以在
如何将cd上的歌曲复制到电脑上
因为CD光盘是一次压制而成，文件格式为CD音轨，无法直接复制。可以使用“酷狗音乐”，抓取CD音轨，抓取格式为FLAC、WAV、APE等高音质格式。将抓取的歌曲保存至电脑上，这样就能即保持了CD的音质，也方便了播放。步骤：1、电脑安装并运
苹果电脑如何恢复数据？教你简单方法
身处互联网时代，电脑是我们工作和学习的必需品，每天我们都会通过它产出大量的信息数据，这些数据本身就有很高的价值，需要我们妥善保存。但很多时候，往往不遂人意，会出现数据丢失的情况，一些重要的数据丢失会给我们工作学习带来很大的不便。
自适应手机屏幕的css样式怎么写改添加在哪里？
不是随便添加句话就可以自适应手机屏幕的，没这么简单。如果要自适应手机，是要用到rem单位的，然而rem又要搭配媒体查询来使用。例如你的设计稿如果是宽720px的话，那你的文字就要以原始大小除以11.25，例如16px的话就要1611.25
电脑的双层密码怎么样设定
个人电脑存放著个人的重要档案，为了隐私安全我们可以设定双层密码。下面由我为大家整理了的方法步骤，希望对大家有帮助!电脑设定双层密码：第一层电脑启动密码1首先按下膝上型电脑开机键，在电脑启动的时候按住【F2

推荐阅读

热门文章

最新发布

标签列表

java中几种解析html的工具

给您推荐相同类型的内容：