使用Jsoup怎样解析本地的html文件

2023-02-28 05:43:01html-css020

使用Jsoup怎样解析本地的html文件,第1张

Jsoup解析是按照字符串解析的，比如：

Document doc=Jsoup.parse(response1Str)

这句传入的response1Str就是一个String类型。因此你只需把本地html文件作为文本全读入为一个字符串，然后再用JSoup进一步解析就行了。

有关读入文件，变成字符串，我刚刚答过一个问题，你可参考一下：

http://zhidao.baidu.com/question/456256407982905445

剩下的代码，就是JSoup用类似CSS选择器的语法，取出你需要的元素，作进一步处理了。

例如：

Elements e2=doc.getElementsByTag("input")

for(Element e: e2) {

if(e.attr("name").equals("formhash")) {

formhashStr=e.attr("value")

break

}

System.out.println("formhash="+formhash)

上面这个代码片段是取出具有name属性为formhash的<input>标签，并打印此属性的value值。

建议去JSoup官网了解更详细的API及功能。

用JSOUP解析HTML删除掉其中的一段DIV标签及内容的方法：

1、解析并提取 HTML 元素

如下：

File input = new File("D:/test.html")

Document doc = Jsoup.parse(input, "UTF-8", "url")

Element content = doc.getElementById("content")

Elements divs= content.getElementsByTag("div")

for (Element div: divs) {

String linkHref = link.attr("id")

String linkText = link.text()

}

2、用remove方法删除div

div.remove()

public void parse(){

String htmlStr = "<table id=kbtable >"

+ "<tr>"

+ "<td width=123>"

+ "<div id=12>这里是要获取的数据1</div>"

+ "<div id=13>这里是要获取的数据2</div>"

+ "</td>"

+ "<td width=123>"

+ "<div id=12>这里是要获取的数据3</div>"

+ "<div id=13>这里是要获取的数据4</div>"

+ "</td>"

+ "</tr>"

+ "</table>"

Document doc = Jsoup.parse(htmlStr)

// 根据id获取table

Element table = doc.getElementById("kbtable")

// 使用选择器选择该table内所有的<tr><tr/>

Elements trs = table.select("tr")

//遍历该表格内的所有的<tr><tr/>

for (int i = 0i <trs.size()++i) {

// 获取一个tr

Element tr = trs.get(i)

// 获取该行的所有td节点

Elements tds = tr.select("td")

// 选择某一个td节点

for (int j = 0j <tds.size()++j) {

Element td = tds.get(j)

// 获取td节点的所有div

Elements divs = td.select("div")

// 选择一个div

for (int k = 0k <divs.size()k++) {

Element div = divs.get(k)

//获取文本信息

String text = div.text()

//输出到控制台

System.out.println(text)

}

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：前端算法入门：刷算法题常用的 JS 基础扫盲

# 下一篇：HTML字体要怎么加粗？

给您推荐相同类型的内容：

js 复制文字功能
功能：点击按钮，复制值。实现方法：通过原生js 的方法 document.execCommand('copy')巨坑：document.execCommand(‘copy’)不生效原因：
js单引号和双引号的转义问题
html的双引号是正常的，每一个属性，例如：value="",一般都有双引号包着。但是用js添加页面节点的时候，需要转义，比如：var html = "&ltdiv onclick=" op
HTML排版怎么实现元素横向放置？
Dreamweaver新建一个HTML文件——修改title为html+css——新建一个div id为“a”——设置代码，给li设置左浮动效果。具体步骤：1、用Dreamweaver新建一个HTML文件2、修改title为html+c
如何在linux下用c语言编写一个能够发送icmp报文的小程序
需要建立socket，参数是AF_INET，SOCK_RAW，IPPROTO_ICMP自己构造ICMP数据包， sendto发送给某地址。ICMP有多种，你可以发送type为13的时间戳请求。然后调用recvfrom会收到type为1
如何打开tmap
思维导图笔记:C语言程序设计思维导图软件:MindManager X5 Pro 文件格式:mmap 身边有很多朋友使用的Mind Map工具是MindManager X5，这毫无疑问是一款杰出的商用软件，但与FreeMind之间的格式却是
CSS的CSS压缩方法
理想的情况是只拥有一个CSS文件（如果你使用RWD以支持IE的老版本，那就需要两个CSS文件。）构建并维护几个单独的CSS文件也算合理，但在部署到产品服务器之前，你应该将它们集合在一起，并删掉那些不必要的空白区域。Saas、LESS和Sty
CSS3中 blur distance与 spread distance的区别?
blur distance：阴影模糊距离,其值越大阴影的边缘就越模糊；spread distance：阴影扩展半径,值可正可负,如果值为正则整个阴影都延展扩大,反之值为负值是,则缩小 filter 属性定义了元素(通常是img)的可视效
C语言的stu代表了什么？
stu在程序中可能是函数名。是用户自己定义的，不是系统提供的。stu(126)代表：调用该函数，参数为：126 stu(20+a+b)代表：调用该函数，参数为：表达式20+a+b的值兄弟，好好看看书，学习快乐stu在C语言中没有特定的含义，
求css3.0手册（网页布局使用）
CSS 3.0 参考手册 (中文版)版本号：beta1 (最后更新时间：2009-8-22)CSS 是 Cascading Style Sheet 的缩写。译作「层叠样式表」。是用于(增强)控制网页样式并允许将样式信息与网页内容分离的一种标
JS之使用Canvas绘图
&ltcanvas&gt元素负责在页面中设定一个区域，然后就可以通过 JavaScript 动态地在这个区域中绘制图形。要使用 &ltcanvas&gt元素，必须先设置其 width 和 height
ruby for循环是通过什么实现的loop
1. 使用for…in语句时，每次只能取出一个数组元素，而不能一次取出多个。2. 当for循环的代码全在一行上时不能省略掉do，否则会报错只有当for循环的代码在多行上时才可以省略掉do1. 宏定义并没有提供这样的功能。2. 使用f
如何用JS实现简单的图片替换
需要准备的材料分别有：电脑、html编辑器、浏览器。1、首先，打开html编辑器，新建html文件，例如：index.html，填写问题基础代码。2、在index.html中的&ltscript&gt标签，输入js代码：$
html怎么设置表格中字体的颜色
在html中设置表格中字体的颜色用css的style实现，下面用一个html5文档具体演示一下：1、新建一个html文档，在html中加入table，如下图所示2、在table中加入style属性，通过给color设置颜色值修改字体颜色，
html5里面怎样自动适应手机屏幕的高度
有两种1.通过设置viewport参数2.使用css3中的缩放两种方法都需要获取当前屏幕大小然后根据网页宽度来计算缩放比例，然后进行缩放。但是因为目前手机种类繁多，浏览器种类也很多，所以每种方法各自都有不少的问题。&lt&l
《Go语言程序设计》epub下载在线阅读全文，求百度网盘云资源
《Go 语言程序设计》（Mark Summerfield）电子书网盘下载免费在线阅读资源链接：链接: https:pan.baidu.coms1bDwFHWuxwamAU7yVnVrGgQ提取码: kh78 书名：Go 语言
css通栏导航条在手机登小屏幕上断掉
呵呵，，这个应该是你设置为100%宽度，而你上面的图片又设置了固定宽度，所以，100%就是屏幕的宽度，而你上面又有超过屏幕的宽度，所以造成这样。。给它加上min-width:宽度和上面图片的一样，，就行了。。最小只能小到多少宽度，，这样就不
怎样用CSS使层的四个边角变的圆滑一些
用到了这条代码：border-radius-left,top,bottom,right例子如下：&lt!DOCTYPE html PUBLIC "-W3CDTD XHTML 1.0 Transitional
web前端入门到实战：css实现单行、多行文本超出显示省略号
语法：text-overflow:clipellipsis默认值：clip 适用于：所有元素 clip：当对象内文本溢出时不显示省略标记（...），而是将溢出的部分裁切掉。 ellipsis：当对象内文本
怎么实现一个HTML网页阻止被302重定向？
实现html网页阻止被302重定向的方法是在同一台服务器内部发请求，只要涉及到调用外部系统，都会有302重定向的。什么是302重定向：请求的资源现在临时从不同的 URI 响应请求。由于这样的重定向是临时的，客户端应当继续向原有地址发送以后的
HTML5表单标签，与浏览器交互
1、form表单：网址与用户交互，把浏览者输入的数据传送到服务器端，这样服务器端程序就可以处理表单传过来的数据。语法： &ltform method="传送方式" action="服务器文
怎么用JS改变span标签中的值？
在JS工作环境中输入更改程序即可改变span标签中的值。具体操作方法：1、打开JS执行工作环境。2、选择要更改值的span。3、输入程序：} }else{ va[0].innerHTML = "要改的值".lengt
HTML中如何连接本地图片？
需要准备的材料分别有：电脑、浏览器、html编辑器。1、首先，打开html编辑器，新建html文件，例如：index.html。2、在index.html中的&ltbody&gt标签中，输入html代码：&ltim
纯CSS显示评分星星（包括半星）
已经有好多插件可以实现星星打分和显示，但只是根据分数来显示星星或半星时，只需用CSS实现会比较简洁不需要引用多于的JS。 HTML CSS 显示结果想要显示不数量的星星时，只要修改 data-rating 的设置值即可。
js中ztree 怎样排序子节点
txt = txt.replace("null,", "")替换选择父节点的idtxt = txt.substring(0, txt.length - 1)alert(txt)当然是通过id与pi
css3的选择器有哪些？
css3选择器如下：一、通配符选择器（*）通配符选择器是用来选择所有元素，，也可以选择某个元素下的所有元素。二、元素选择器（E）元素选择器，是css选择器中最常见而且最基本的选择器。三、类选择器（.className）类选择器是
JavaScript如何实现多线程？
JS为我们提供了一个Worker的类，它的作用就是为了解决这种阻塞的现象。当我们使用这个类的时候，它就会向浏览器申请一个新的线程。这个线程就用来单独执行一个js文件。var worker = new Worker(js文件路径)1那么这个语
css3的常用变形方法有哪些?写出核心代码
css3中的变形Chrome和safai需前缀加-webkit-，Foxfire需加前缀-moz-1,旋转 rotate()div{width: 300pxheight: 300pxtransform:rotate(20deg)}2,扭曲
HTML 初学->input 复选框实现单选模式，同时checkbox修改默认样式纯css改
初学对HTML进行了简单的学习以及记录，勿喷，只是记录一个过程，也希望对初学者有点帮助吧. &lt!DOCTYPEhtml&gt &lthtml&gt label{ height
<ruby>中不换行问题
CSS控制有时候会出现问题。看上去语法没错误，但是就不能实现想要的效果。有时候弄得我自己都晕了。也许是IE浏览器不太支持CSS 2.0 的关系，也许是不知道什么关系。我看你打的是什么代码啊？好象不是HTML啊是什么东西？是XML？XML有没
CSS中怎么让DIV居中亲自实验得出的结论
CSS如何使DIV层水平居中今天用CSS碰到个很棘手的问题,DIV本身没有定义自己居中的属性,网上很多的方法都是介绍用上级的text-align:center然后嵌套一层DIV来解决问题.可是事实上这样的方法科学吗?经过网络搜索和亲自实验得

推荐阅读

热门文章

最新发布

标签列表

使用Jsoup怎样解析本地的html文件

给您推荐相同类型的内容：