Tag接口是Node接口的子接口,本质上代表一个标签<x attr="value" ...>,比Node接口多了存取属性的方法。
很多类实现了Tag接口,比如:Div, FormTag, SelectTag, OptionTag, TableTag, LinkTag, TagNode等。
定位你会,所以你应该可以拿到Div这个对象。这样就很容易取到它的class属性了。
给你一个类似的小例子:test.html 内容很简单: <a href="2.html">hehe</a>
public class ParseHtmlTest {
public static void main(String[] args) throws Exception {
Parser parser = new Parser("e:/3.html")
parser.setEncoding("GBK")
HtmlPage page = new HtmlPage(parser)
parser.visitAllNodesWith(page)
NodeList nodelist = page.getBody()
NodeFilter filter = new TagNameFilter("A")
nodelist = nodelist.extractAllNodesThatMatch(filter, true)
for (int i = 0i <nodelist.size()i++) {
LinkTag link = (LinkTag) nodelist.elementAt(i)
System.out.println(link.getAttribute("href"))
}
}
}
满意请采纳。
HTML分析是一个比较复杂的工作,Java世界主要有几款比较方便的分析工具:
1.Jsoup
Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是,可以用于支持用jQuery中css selector的方式选取元素,这对于熟悉js的开发者来说基本没有学习成本。
String content = "blabla"
Document doc = JSoup.parse(content)
Elements links = doc.select("a[href]")
Jsoup还支持白名单过滤机制,对于网站防止XSS攻击也是很好的。
2.HtmlParser
HtmlParser的功能比较完备,也挺灵活,但谈不上方便。这个项目很久没有维护了,最新版本是2.1。HtmlParser的核心元素是Node,对应一个HTML标签,支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter,通过实现NodeFilter接口,可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章:使用 HttpClient 和 HtmlParser 实现简易爬虫。
3.Apache tika
tika是专为抽取而生的工具,还支持PDF、Zip甚至是Java Class。使用tika分析HTML,需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler,解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用,我个人倒是认为对于解析html意义不是很大。
InputStream inputStream = nullHtmlParser htmlParser = new HtmlParser()
htmlParser.parse(new ByteArrayInputStream(page.getContentData()),
contentHandler, metadata, new ParseContext())
4.HtmlCleaner与XPath
HtmlCleaner最大的优点是:支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言,也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的,但是CSS Selector专门针对HTML,写法更简洁,而XPath则是通用的标准,可以精确到属性值。XPath有一定的学习成本,但是对经常需要编写爬虫的人来说,这点投入绝对是值得的。
if(!it2.hasMoreNodes()){System.out.println("no nodes")
}
和while(it2.hasMoreNodes()){
Node node = (Node)it2.nextNode()
System.out.println("node = " + node.toHtml())
}是选择结构,
你那个(!it2.hasMoreNodes())的条件满足了所以输出的就是if里面的东西
while里条件不满足所以就不显示里面的了