在HtmlAgilityPack中常用到的类有HtmlDocument、HtmlNodeCollection、
HtmlNode和HtmlWeb等。
其流程一般是先获取HTML,这个可以通过HtmlDocument的Load()或LoadHtml()来加载静态内容,或者也可以HtmlWeb的Get()或Load()方法来加载网络上的URL对应的HTML。
得到了HtmlDocument的实例之后,就可以用HtmlDocument的DocumentNode属性,这是整个HTML文档的根节点,它本身也是一个HtmlNode,然后就可以利用HtmlNode的SelectNodes()方法返回多个HtmlNode的集合对象HtmlNodeCollection,也可以利用HtmlNode的SelectSingleNode()方法返回单个HtmlNode。
HtmlAgilityPack确实是一个功能强大、体积小的开源HTML解析类库,在本篇仅仅是介绍了其中几个类的用法,但光这些就足以供周公快速实现了许久没有实现的功能,如果让周公用正则表达式来实现类似的功能,时间肯定要比用这个长得多。
将html格式不能转换成java代码。可以转换成jsp在myeclipse中运行。1.新建一个Web项目,把准备好的tmp.html粘贴到项目的WebRoot文件夹下
2.用MyEclipse JSP Editor方式打开tmp.html文件,在文件首行添加代码:
<%@ page language="java" import="java.util.*" contentType="text/htmlcharset=GBK" pageEncoding="GBK"%>
注:这行指令不能少,language属性,指定JSP页面采用的脚步语言;import属性,可以在JSP文件的脚步片段中引
用外在的类文件;contentType属性,用来对编码格式jinx设置,这里的“GBK”是中文编码
3.保存文件,然后把tmp.html重命名成:tmp.jsp
可以使用虚拟打印机来处理:方法一:使用虚拟打印机pdf factory即可,而且其他格式文件只要是能够打印,选择这个虚拟打印机,都可以做成PDF文件,很简单实用;
方法二:用其他虚拟打印机转成PDF文件。
方法三:使用专门的转换软件,把文件转成PDF文件。