如何将html转换成xml,跪求 请说明具体算法和用到的工具

html-css017

如何将html转换成xml,跪求 请说明具体算法和用到的工具,第1张

我给你些我的建议吧

HTML的语法格式比XML宽松多了,真正XML格式的网页是XHTML,也就是下一代HTML,他的格式和XML差不多,很严谨的。

如果你不想利用某些HTML和XML互转工具,自己编的话,有一定难度。

1.HTML的节点可以没末节点,你需要不停扫描<,>,/,这三个符号以检查是否漏掉末节点,并补充。

2.HTML节点还可以不规则嵌套,你需要对已读入节点进行顺序存储,或用栈的数据结构来存储,并验证其层次正确性,最终正确顺序的节点,期间还得缓存节点值,或属性值。

3.HTML不同于XML,许多HTML节点有特殊的意义,许多HTML节点比如<b>,<hr/>都需要经过特殊处理才行。

在技术上,为保证性能,还要在一下方面有加强。

1.强大的字符串扫描,和解析器,此工作也巨大,但网上源码很多,建议到google英文里搜索,HTML

parser,XML

parser(解析器),有很多c#,java,c++的源代码可以利用,没有强大的解析器,跟本无法读懂文件。

2.System.Xml空间的详细运用,除了简单的XMLWriter,还必须学会XMLDocument,XmlNode,能够动态操控XML。还有Xpath技术,操作XMl很有效率。

3.适当还会运用到正则表达式,来处理字符串匹配问题,尤其是节点的操作,即使是再好的字符串查找算法,有时也不如正则表达式,因此system.Text

中的Regex类要掌握好。

4.会控制WinForm中的WebBrower控件

当然,即使你不打算自己做,或已找到了源代码,要想读懂,也必须要以上的知识。

至于工具,网上有,源码还哪找,有java的,但下载不下来。

这是著名的W3C(Html,xml等技术的创始组织)的转换工具,里面也有一些介绍,相信会有用的。

有一个用C#编的转换器,但付费后才可看到源代码

还有一些软件,stylus的产品不错!

JSP将HTML的表单数据提交生成一个XML文件的方法:

1、定义表单,封装id,firstName和lastName

<form:form modelAttribute="person">

<form:hidden path="id" />

<fieldset>

<div class="form-row">

<label for="firstName"><fmt:message key="person.form.firstName"/>:</label>

<span class="input"><form:input path="firstName" /></span>

</div>

<div class="form-row">

<label for="lastName"><fmt:message key="person.form.lastName"/>:</label>

<span class="input"><form:input path="lastName" /></span>

</div>

<div class="form-buttons">

<div class="button">

<input type="submit" id="save" name="_eventId_save" value="<fmt:message key="button.save"/>"/> 

<input type="submit" name="_eventId_cancel" value="Cancel"/> 

</div>

</div>

</fieldset>

</form:form>

2、提交到servlet后,调用构造xml的java方法:

try {

DocumentBuilderFactory docFactory = DocumentBuilderFactory.newInstance()

DocumentBuilder docBuilder = docFactory.newDocumentBuilder()

// root elements

Document doc = docBuilder.newDocument()

Element rootElement = doc.createElement("company")

doc.appendChild(rootElement)

// staff elements

Element staff = doc.createElement("Staff")

rootElement.appendChild(staff)

// set attribute to staff element

Attr attr = doc.createAttribute("id")

attr.setValue("1")

staff.setAttributeNode(attr)

// shorten way

// staff.setAttribute("id", "1")

// firstname elements

Element firstname = doc.createElement("firstname")

firstname.appendChild(doc.createTextNode("yong"))

staff.appendChild(firstname)

// lastname elements

Element lastname = doc.createElement("lastname")

lastname.appendChild(doc.createTextNode("mook kim"))

staff.appendChild(lastname)

// nickname elements

Element nickname = doc.createElement("nickname")

nickname.appendChild(doc.createTextNode("mkyong"))

staff.appendChild(nickname)

// salary elements

Element salary = doc.createElement("salary")

salary.appendChild(doc.createTextNode("100000"))

staff.appendChild(salary)

// write the content into xml file

TransformerFactory transformerFactory = TransformerFactory.newInstance()

Transformer transformer = transformerFactory.newTransformer()

DOMSource source = new DOMSource(doc)

StreamResult result = new StreamResult(new File("d:\\person.xml"));

transformer.transform(source, result)

System.out.println("File saved!")

} catch (ParserConfigurationException pce) {

pce.printStackTrace()

} catch (TransformerException tfe) {

tfe.printStackTrace()

}

3、构造完成:

<?xml version="1.0" encoding="UTF-8" standalone="no" ?>

<company>

<staff id="1">

<firstname>yong</firstname>

<lastname>mook kim</lastname>

<nickname>mkyong</nickname>

<salary>100000</salary>

</staff>

</company>

我给你些我的建议吧

HTML的语法格式比XML宽松多了,真正XML格式的网页是XHTML,也就是下一代HTML,他的格式和XML差不多,很严谨的。

如果你不想利用某些HTML和XML互转工具,自己编的话,有一定难度。

1.HTML的节点可以没末节点,你需要不停扫描<,>,/,这三个符号以检查是否漏掉末节点,并补充。

2.HTML节点还可以不规则嵌套,你需要对已读入节点进行顺序存储,或用栈的数据结构来存储,并验证其层次正确性,最终正确顺序的节点,期间还得缓存节点值,或属性值。

3.HTML不同于XML,许多HTML节点有特殊的意义,许多HTML节点比如<b>,<hr/>都需要经过特殊处理才行。

在技术上,为保证性能,还要在一下方面有加强。

1.强大的字符串扫描,和解析器,此工作也巨大,但网上源码很多,建议到google英文里搜索,HTML parser,XML parser(解析器),有很多c#,java,c++的源代码可以利用,没有强大的解析器,跟本无法读懂文件。

2.System.Xml空间的详细运用,除了简单的XMLWriter,还必须学会XMLDocument,XmlNode,能够动态操控XML。还有Xpath技术,操作XMl很有效率。

3.适当还会运用到正则表达式,来处理字符串匹配问题,尤其是节点的操作,即使是再好的字符串查找算法,有时也不如正则表达式,因此system.Text 中的Regex类要掌握好。

4.会控制WinForm中的WebBrower控件

当然,即使你不打算自己做,或已找到了源代码,要想读懂,也必须要以上的知识。

至于工具,网上有,源码还哪找,有java的,但下载不下来。

这是著名的W3C(Html,xml等技术的创始组织)的转换工具,里面也有一些介绍,相信会有用的。

http://www.w3.org/People/Raggett/tidy/

有一个用C#编的转换器,但付费后才可看到源代码

http://www.chilkatsoft.com/downloads.asp

http://www.example-code.com/csharp/html2xml.asp

还有一些软件,stylus的产品不错!

http://www.stylusstudio.com/html_to_xml_importer.html