使用Jsoup怎样解析本地的html文件

2023-03-02 13:19:01html-css025

使用Jsoup怎样解析本地的html文件,第1张

Jsoup解析是按照字符串解析的，比如：

Document doc=Jsoup.parse(response1Str)

这句传入的response1Str就是一个String类型。因此你只需把本地html文件作为文本全读入为一个字符串，然后再用JSoup进一步解析就行了。

有关读入文件，变成字符串，我刚刚答过一个问题，你可参考一下：

http://zhidao.baidu.com/question/456256407982905445

剩下的代码，就是JSoup用类似CSS选择器的语法，取出你需要的元素，作进一步处理了。

例如：

Elements e2=doc.getElementsByTag("input")

for(Element e: e2) {

if(e.attr("name").equals("formhash")) {

formhashStr=e.attr("value")

break

}

System.out.println("formhash="+formhash)

上面这个代码片段是取出具有name属性为formhash的<input>标签，并打印此属性的value值。

建议去JSoup官网了解更详细的API及功能。

用JSOUP解析HTML删除掉其中的一段DIV标签及内容的方法：

1、解析并提取 HTML 元素

如下：

File input = new File("D:/test.html")

Document doc = Jsoup.parse(input, "UTF-8", "url")

Element content = doc.getElementById("content")

Elements divs= content.getElementsByTag("div")

for (Element div: divs) {

String linkHref = link.attr("id")

String linkText = link.text()

}

2、用remove方法删除div

div.remove()

public void parse(){

String htmlStr = "<table id=kbtable >"

+ "<tr>"

+ "<td width=123>"

+ "<div id=12>这里是要获取的数据1</div>"

+ "<div id=13>这里是要获取的数据2</div>"

+ "</td>"

+ "<td width=123>"

+ "<div id=12>这里是要获取的数据3</div>"

+ "<div id=13>这里是要获取的数据4</div>"

+ "</td>"

+ "</tr>"

+ "</table>"

Document doc = Jsoup.parse(htmlStr)

// 根据id获取table

Element table = doc.getElementById("kbtable")

// 使用选择器选择该table内所有的<tr><tr/>

Elements trs = table.select("tr")

//遍历该表格内的所有的<tr><tr/>

for (int i = 0i <trs.size()++i) {

// 获取一个tr

Element tr = trs.get(i)

// 获取该行的所有td节点

Elements tds = tr.select("td")

// 选择某一个td节点

for (int j = 0j <tds.size()++j) {

Element td = tds.get(j)

// 获取td节点的所有div

Elements divs = td.select("div")

// 选择一个div

for (int k = 0k <divs.size()k++) {

Element div = divs.get(k)

//获取文本信息

String text = div.text()

//输出到控制台

System.out.println(text)

}

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：macbook怎么打出来贝塔

# 下一篇：开电脑店需要什么手续

给您推荐相同类型的内容：

CSS让div悬浮
.tl {width: 240pxheight: 193pxposition: absolute*这里一定要设置*z-index: 999999*这里是该元素与显示屏的距离，据说越大越好，因为没有它也是可以的*margin
为什么微盘下载不了小说,格式变成了htm,怎么办，昨天都还行的。
简单说，就是你下载的是一个网页，而不是你以为的小说啦！而且一部小说怎么可能才1.25KB大小，换个下载网站看看，或者你想直接转回TXT也可以，这里有教程，http:jingyan.baidu.comarticle2d5afd69ef
oppor11手机怎样恢复js调试授权访问
开发者选项操作显示之后，只能通过恢复出厂设置或者刷机来隐藏；若仅需关闭，可以根据手机版本按照以下路径进行操作：1、ColorOS 3.0版本，进入设置--关于手机，连续点击版本号直到出现“您已处于开发者选项”，再进入设置--其他设置--开发
老电脑用什么浏览器
问题一：旧电脑低配置用什么浏览器流畅上网最不占用内存的是IE，你用IE9就可以。 05年的机器也没很差很差。360 的软件全部删掉，偷偷上传和偷偷占用你的带宽的，会造成浏览器浏览时假死。谷歌的chorme也可以，速度快于IE
r语言和python的区别
1、适用场景不同R适用于数据分析任务需要独立计算或单个服务器的应用场景。Python作为一种粘合剂语言，在数据分析任务中需要与Web应用程序集成或者当一条统计代码需要插入到生产数据库中时，使用Python更好。2、任务不同在进行探索
java密码加密与解密
以下两个类可以很方便的完成字符串的加密和解密加密 CryptHelper encrypt（password）解密 CrypHelper decrypt（password）代码如下 CryptUtils java
玩《绝地求生》电脑需要什么配置？
《绝地求生》对电脑的要求比较高，电脑内存最好在16g以上，显卡需要达到1050ti，最低配置和推荐配置可以去steam商店查看官方的说明，具体的内容可以查看下面的内容。1、官方给出的最低配置是内存是6GB RAM及以上，处理器是Intel
怎么装载优化模式参数
1、首先装载优化模式参数要在菜单里面进入ldquo，管理优化校准之后，选ldquo保存编辑rdquo。2、其次选择任意一个ldquo，标准rdquo、ldquo人像rdquo、ldquo，鲜艳rdquo，等原来的基准厂家设置。3、最后调整
75键盘右上方的圆圈
1、联想台式电脑键盘右上方有一个很大的的红色圆键，这个点叫做小红帽，是起到移动光标的作用的，和触摸面板的作用是一样的，用手按住它然后往你想要移动的方向倾斜，你就会发现屏幕上的光标跟着动了。2、这个小红帽是联想的专利设计，通常是和面板上的左右
局域网中其他电脑不用网络凭证可以共享打印机，而我的电脑要输入网络凭证怎么办，怎么取消输入网络凭证
局域网中其他电脑不用网络凭证可以共享打印机，而我的电脑要输入网络凭证是设置错误造成的没解决方法为：1、打开命令行：cmd.exe,进入cmd后，输入ipconfig。2、打开电脑控制面板-》网络和共享中心。3、勾选上“启用网络发现”、“
电脑微信分身怎么设置
电脑微信分身的设置方法：下面我以win10电脑，微信版本号3.7.6.44为您演示一遍1、首先打开电脑，然后找到微信，如下图所示：2、然后再按住电脑键盘上的enter键不放，如下图所示：3、然后鼠标双击微信，就会出现多个微信，从而实现多
京东买电脑怎么保修？
是全国联保。全国联保，通常意义上是指可以在国内任何地区享受维修或升级服务，与此类似的还有全球联保，但是全球联保是没有行货、水货区别的，只要确定是正品，即可享受维修或升级服务。家电全国联合保修网（简称全国联保）是一种新的社会化家电维修制度，行
DIV+CSS布局中的几个重难点属性
1、布局时遵循从整体到局部的原则。可以尝试先设计出各个div块之间的关系，包含或者并列。2、并列的块时，可使用float属性，使用float时要保证这两个块的宽度之和小于其父级块，否则会出现折行。3、在应用了float属性的块时，该块已脱离
美国人用什么笔记本电脑
在国外的,他们有接近一半都是苹果的macbook pro,女生部分喜欢买东芝或者索尼的笔记本,然后就是一些学工程的学生和成人通常购买thinkpad的W和X系列,商用人群基本是thinkpad的X和富士通的笔记本,二三线的小城市里面买戴尔的
开电脑店需要什么手续
问题一：开电脑店，需要办什么手续办理个体户营业执照 1.需准备店面房产证复印件,(是租的房子还要租房协议书) 2.身份证复印2张，一寸照片5张. 3.到当地工商所申领表格办理工商营业执照。 4.再到税务所办税务登记证，
台式机配置怎么样查看
想查看下自己台式机的配置，该怎么样查看呢?下面由我给你做出详细的台式机配置查看方法介绍!希望对你有帮助!台式机配置查看方法一：一：利用电脑属性查看：在桌面右击“我的电脑”选择“属性”--调出属性对话框，在属性
ipadpro使用2年主板坏了
平板电脑主板出问题，小问题可以维修，如果出现比较严重的问题那就需要换主板解决了。可以带上平板去售后检测维修看看，如果在质保期内非人为损坏，主板出现问题可以免费维修。iPad的保修政策是只换不修因为iPad系列的设计时候无法拆换，有封闭性一次
html表格字体应该加在哪
html表格字体应该加在html编辑器里具体编辑方法如下：1.打开html编辑器，新建html文件，例如：index.html，编写问题基础代码，2.在index.html中的标签中输入样式代码，3.浏览器运行index.html页面，此时
y9000p拯救者电脑功率
105WY9000P游戏本采用了12代英特尔酷睿i7-12700H标压处理器，这是一个采用异构i14hexin20线程的处理器，睿频可以到4.7GHz。她是采用6个大核心8个小核心的配置，如果电脑采用野兽模式的话，性能释放可以到105W以上
联想笔记本电脑电竞版和家庭学生版一样吗？
不一样的，表现在屏和配置上的。电竞屏是指刷新率高，一般为120Hz以上。（常见的大部分屏幕为60Hz）60Hz的屏幕，哪怕你游戏有120FPS，那也只能一秒钟显示60帧出来。但是120Hz的屏幕就可以一秒钟显示120帧，如果游戏帧数能超过6
我家电脑字体没了
电脑字体消失是原因如下： 1、电脑系统与部分第三方应用不兼容导致； 2、电脑中部分应用携带病毒导致；3、电脑字体程序被卸载导致。解决问题的方法如下： 1、卸载不兼容软件后到官网下载安装后重试即可； 2、到电脑中
电脑系统崩溃了怎么修复？
系统崩溃的原因很多，可参考一下解决方案：具体步骤:1.先按“Shift+重启”，然后按住Shift重启电脑，等待界面进入安全模式，点击“疑难解答”。2.然后根据你的问题选择恢复方式，点击“恢复电脑”开始恢复，解决大部分问题。3.按住WinX
为什么电脑每次开机时屏幕都倒过来？
原因及解决方案总结如下： x0dx0ax0dx0a1：首先最大的可能是您的分辨率的问题，确认您的分辨率为1024*768或者是800*600等！（如果您的分辨率把1024＊768变成了768＊1024，那么显示很可能就倒过来了！）
怎么锁定电脑屏幕锁定电脑屏的方法
1、打开控制面板，点击外观和个性化→更改屏幕保护程序。2、在打开的屏幕保护程序设置窗口中，选择一种屏幕保护程序，如彩带，同时设置屏幕等待时间，如1分钟，勾选在恢复时显示登陆屏幕。最后点击确定完成设置。3、经过这样的设置后，当在1分
加内存条有什么用
内存条是写入或读出信息的。内存条（RandomAccessMemory，缩写：RAM，又名：随机存取存储器），是与CPU直接交换数据的内部存储器，通常作为操作系统或其他正在运行中的程序的临时数据存储介质。内存条工作时可以随时从任何一个指定的
在电脑上怎样编程？
VB~VC~VF~C~C#~C++~JAVA~.NET~这些都是编程 x0dx0aASP~CGI~PHP~JSP这些是WEB编程。。 x0dx0a虽然都是编程，但编出来的程序可是不一样的。 x0dx0a目标是什么？开发？创业？还
电脑游戏的玩的时候用哪几个键
不同的游戏有不同的按键。常规的有WASD、QWER、ZXCV，1234等组合，其他常用的有BFGKLOP等。但是有的还会用到F1、F2、F3、F4等，每款游戏都可能不一样的。扩展资料：电脑游戏（computer game），游戏形式的一
接线端子的接触类材质用什么的好？
看你需要的用到什么样的东西了，电气类产品上面用到的一般都是铜镀锌的，铁制的价格低但如果不是高要求的也可以接受，至于高端的比如电脑主板上用的都是铜镀金镀银。当然市面上最主要用到的接触类材质还是已铜为主。因为铜质可以降低接触电阻。如果是要考虑机
html布局的常用的四种实现方式
需求：假设高度默认100px ，请写出三栏布局，其中左栏、右栏各为300px，中间自适应将左右的div宽度设为300px,分别左右浮动，中间盒子不设宽度。注意：先写右边盒子，再写中间盒子，否则先渲染中间盒子，中间盒子会占满该行剩
电脑win10右下角小电脑图标是不是wifi？
电脑win10右下角小电脑图标，不是wifi。Windows系统的网络连接状态比较直观。任务托盘右下角显示小电脑图标，表示电脑连接的是有线网络。任务托盘右下角显示阶梯形天线图标，才表示电脑连接的是无线网络，也就是WIFI。你说的是不是任务栏

推荐阅读

热门文章

最新发布

标签列表

使用Jsoup怎样解析本地的html文件

给您推荐相同类型的内容：