JAVA怎么把HTML转换XML格式

html-css014

JAVA怎么把HTML转换XML格式,第1张

java中利用HtmlAgilityPack API就可以把html解析成xml了。

在HtmlAgilityPack中常用到的类有HtmlDocument、HtmlNodeCollection、

HtmlNode和HtmlWeb等。

其流程一般是先获取HTML,这个可以通过HtmlDocument的Load()或LoadHtml()来加载静态内容,或者也可以HtmlWeb的Get()或Load()方法来加载网络上的URL对应的HTML。

得到了HtmlDocument的实例之后,就可以用HtmlDocument的DocumentNode属性,这是整个HTML文档的根节点,它本身也是一个HtmlNode,然后就可以利用HtmlNode的SelectNodes()方法返回多个HtmlNode的集合对象HtmlNodeCollection,也可以利用HtmlNode的SelectSingleNode()方法返回单个HtmlNode。

HtmlAgilityPack确实是一个功能强大、体积小的开源HTML解析类库,在本篇仅仅是介绍了其中几个类的用法,但光这些就足以供周公快速实现了许久没有实现的功能,如果让周公用正则表达式来实现类似的功能,时间肯定要比用这个长得多。

将html格式不能转换成java代码。可以转换成jsp在myeclipse中运行。

1.新建一个Web项目,把准备好的tmp.html粘贴到项目的WebRoot文件夹下

2.用MyEclipse JSP Editor方式打开tmp.html文件,在文件首行添加代码:

<%@ page language="java" import="java.util.*" contentType="text/htmlcharset=GBK" pageEncoding="GBK"%>

注:这行指令不能少,language属性,指定JSP页面采用的脚步语言;import属性,可以在JSP文件的脚步片段中引

用外在的类文件;contentType属性,用来对编码格式jinx设置,这里的“GBK”是中文编码

3.保存文件,然后把tmp.html重命名成:tmp.jsp

可以使用虚拟打印机来处理:

方法一:使用虚拟打印机pdf factory即可,而且其他格式文件只要是能够打印,选择这个虚拟打印机,都可以做成PDF文件,很简单实用;

方法二:用其他虚拟打印机转成PDF文件。

方法三:使用专门的转换软件,把文件转成PDF文件。