DOM4J可以处理html文件吗? 怎么处理

2023-03-04 15:21:02html-css018

DOM4J可以处理html文件吗? 怎么处理,第1张

可以，以字符串的形式解析。。。

package com.mty95190.test

//先加入dom4j.jar包

import java.util.HashMap

import java.util.Iterator

import java.util.Map

import org.dom4j.Document

import org.dom4j.DocumentException

import org.dom4j.DocumentHelper

import org.dom4j.Element

/**

* @description 解析xml字符串

* @author 无处不在

* @Time 上午11:01:31

public class aa {

public void readStringXml(String xml) {

Document doc = null

try {

// 读取并解析XML文档

// SAXReader就是一个管道，用一个流的方式，把xml文件读出来

// SAXReader reader = new SAXReader()//User.hbm.xml表示你要解析的xml文档

// Document document = reader.read(new File("User.hbm.xml"))

// 下面的是通过解析xml字符串的

doc = DocumentHelper.parseText(xml)// 将字符串转为XML

Element rootElt = doc.getRootElement()// 获取根节点

System.out.println("根节点：" + rootElt.getName())// 拿到根节点的名称

Iterator iter = rootElt.elementIterator("head")// 获取根节点下的子节点head

// 遍历head节点

while (iter.hasNext()) {

Element recordEle = (Element) iter.next()

String title = recordEle.elementTextTrim("title")// 拿到head节点下的子节点title值

System.out.println("title:" + title)

Iterator iters = recordEle.elementIterator("script")// 获取子节点head下的子节点script

// 遍历Header节点下的Response节点

while (iters.hasNext()) {

Element itemEle = (Element) iters.next()

String username = itemEle.elementTextTrim("username")// 拿到head下的子节点script下的字节点username的值

String password = itemEle.elementTextTrim("password")

System.out.println("username:" + username)

System.out.println("password:" + password)

}

Iterator iterss = rootElt.elementIterator("body")///获取根节点下的子节点body

// 遍历body节点

while (iterss.hasNext()) {

Element recordEless = (Element) iterss.next()

String result = recordEless.elementTextTrim("result")// 拿到body节点下的子节点result值

System.out.println("result:" + result)

Iterator itersElIterator = recordEless.elementIterator("form")// 获取子节点body下的子节点form

// 遍历Header节点下的Response节点

while (itersElIterator.hasNext()) {

Element itemEle = (Element) itersElIterator.next()

String banlce = itemEle.elementTextTrim("banlce")// 拿到body下的子节点form下的字节点banlce的值

String subID = itemEle.elementTextTrim("subID")

System.out.println("banlce:" + banlce)

System.out.println("subID:" + subID)

}

} catch (DocumentException e) {

e.printStackTrace()

} catch (Exception e) {

e.printStackTrace()

}

/**

* @description 将xml字符串转换成map

* @param xml

* @return Map

public static Map readStringXmlOut(String xml) {

Map map = new HashMap()

Document doc = null

try {

doc = DocumentHelper.parseText(xml)// 将字符串转为XML

Element rootElt = doc.getRootElement()// 获取根节点

System.out.println("根节点：" + rootElt.getName())// 拿到根节点的名称

Iterator iter = rootElt.elementIterator("head")// 获取根节点下的子节点head

// 遍历head节点

while (iter.hasNext()) {

Element recordEle = (Element) iter.next()

String title = recordEle.elementTextTrim("title")// 拿到head节点下的子节点title值

System.out.println("title:" + title)

map.put("title", title)

Iterator iters = recordEle.elementIterator("script")// 获取子节点head下的子节点script

// 遍历Header节点下的Response节点

while (iters.hasNext()) {

Element itemEle = (Element) iters.next()

String username = itemEle.elementTextTrim("username")// 拿到head下的子节点script下的字节点username的值

String password = itemEle.elementTextTrim("password")

System.out.println("username:" + username)

System.out.println("password:" + password)

map.put("username", username)

map.put("password", password)

}

Iterator iterss = rootElt.elementIterator("body")///获取根节点下的子节点body

// 遍历body节点

while (iterss.hasNext()) {

Element recordEless = (Element) iterss.next()

String result = recordEless.elementTextTrim("result")// 拿到body节点下的子节点result值

System.out.println("result:" + result)

Iterator itersElIterator = recordEless.elementIterator("form")// 获取子节点body下的子节点form

// 遍历Header节点下的Response节点

while (itersElIterator.hasNext()) {

Element itemEle = (Element) itersElIterator.next()

String banlce = itemEle.elementTextTrim("banlce")// 拿到body下的子节点form下的字节点banlce的值

String subID = itemEle.elementTextTrim("subID")

System.out.println("banlce:" + banlce)

System.out.println("subID:" + subID)

map.put("result", result)

map.put("banlce", banlce)

map.put("subID", subID)

}

} catch (DocumentException e) {

e.printStackTrace()

} catch (Exception e) {

e.printStackTrace()

}

return map

}

public static void main(String[] args) {

// 下面是需要解析的xml字符串例子

String xmlString = "<html>" + "<head>" + "<title>dom4j解析一个例子</title>"

+ "<script>" + "<username>yangrong</username>"

+ "<password>123456</password>" + "</script>" + "</head>"

+ "<body>" + "<result>0</result>" + "<form>"

+ "<banlce>1000</banlce>" + "<subID>36242519880716</subID>"

+ "</form>" + "</body>" + "</html>"

* Test2 test = new Test2()test.readStringXml(xmlString)

Map map = readStringXmlOut(xmlString)

Iterator iters = map.keySet().iterator()

while (iters.hasNext()) {

String key = iters.next().toString()// 拿到键

String val = map.get(key).toString()// 拿到值

System.out.println(key + "=" + val)

}

action中

response.getWriter().write("document.write('<input type='text' id='c' value='ca'/>')")

response.getWriter().close()

return mapping.findForward("success")不能这样写只写

return null

这样页面就会有你这个文本框了！具体你要什么东西你自己拼就行了！

StringBuffer sqlBuf = new StringBuffer(100)最好规定长度

sqlBuf.append("1")这样行！

sqlBuf.append("1").append("2").append("2").append("2")这样也许

response.getWriter().write(sqlBuf.toString())

response.getWriter().close()

是不是你想要的？

对于CDATA类型的内容，转换是透明的，你直接获取value就行

使用 dom4j 解析 XML

dom4j 是一种解析 XML 文档的开放源代码 XML 框架。本文介绍如何使用包含在 dom4j 中的解析器创建并修改 XML 文档。

dom4j API 包含一个解析 XML 文档的工具。本文中将使用这个解析器创建一个示例 XML 文档。清单 1 显示了这个示例 XML 文档，catalog.xml。

清单 1. 示例 XML 文档（catalog.xml）

<journal title="XML Zone"

publisher="IBM developerWorks">

Marcello

Vitaletti

然后使用同一个解析器修改 catalog.xml，清单 2 是修改后的 XML 文档，catalog-modified.xml。

清单 2. 修改后的 XML 文档（catalog-modified.xml）

<journal title="XML Zone"

publisher="IBM developerWorks">

Ayesha

Malik

与 W3C DOM API 相比，使用 dom4j 所包含的解析器的好处是 dom4j 拥有本地的 XPath 支持。DOM 解析器不支持使用 XPath 选择节点。

本文包括以下几个部分：

预先设置

创建文档

修改文档

预先设置

这个解析器可以从 http://dom4j.org 获取。通过设置使 dom4j-1.4/dom4j-full.jar 能够在 classpath 中访问，该文件中包括 dom4j 类、XPath 引擎以及 SAX 和 DOM 接口。如果已经使用了 JAXP 解析器中包含的 SAX 和 DOM 接口，向 classpath 中增加 dom4j-1.4/dom4j.jar 。 dom4j.jar 包括 dom4j 类和 XPath 引擎，但是不含 SAX 与 DOM 接口。

回页首

创建文档

本节讨论使用 dom4j API 创建 XML 文档的过程，并创建示例 XML 文档 catalog.xml。

使用 import 语句导入 dom4j API 类：

import org.dom4j.Document

import org.dom4j.DocumentHelper

import org.dom4j.Element

使用 DocumentHelper 类创建一个文档实例。 DocumentHelper 是生成 XML 文档节点的 dom4j API 工厂类。

Document document = DocumentHelper.createDocument()

使用 addElement() 方法创建根元素 catalog 。 addElement() 用于向 XML 文档中增加元素。

Element catalogElement = document.addElement("catalog")

在 catalog 元素中使用 addComment() 方法添加注释“An XML catalog”。

catalogElement.addComment("An XML catalog")

在 catalog 元素中使用 addProcessingInstruction() 方法增加一个处理指令。

catalogElement.addProcessingInstruction("target","text")

在 catalog 元素中使用 addElement() 方法增加 journal 元素。

Element journalElement = catalogElement.addElement("journal")

使用 addAttribute() 方法向 journal 元素添加 title 和 publisher 属性。

journalElement.addAttribute("title", "XML Zone")

journalElement.addAttribute("publisher", "IBM developerWorks")

向 article 元素中添加 journal 元素。

Element articleElement=journalElement.addElement("article")

为 article 元素增加 level 和 date 属性。

articleElement.addAttribute("level", "Intermediate")

articleElement.addAttribute("date", "December-2001")

向 article 元素中增加 title 元素。

Element titleElement=articleElement.addElement("title")

使用 setText() 方法设置 article 元素的文本。

titleElement.setText("Java configuration with XML Schema")

在 article 元素中增加 author 元素。

Element authorElement=articleElement.addElement("author")

在 author 元素中增加 firstname 元素并设置该元素的文本。

Element firstNameElement=authorElement.addElement("firstname")

firstNameElement.setText("Marcello")

在 author 元素中增加 lastname 元素并设置该元素的文本。

Element lastNameElement=authorElement.addElement("lastname")

lastNameElement.setText("Vitaletti")

可以使用 addDocType() 方法添加文档类型说明。

document.addDocType("catalog", null,"file://c:/Dtds/catalog.dtd")

这样就向 XML 文档中增加文档类型说明：

如果文档要使用文档类型定义（DTD）文档验证则必须有 Doctype。

XML 声明自动添加到 XML 文档中。

清单 3 所示的例子程序 XmlDom4J.java 用于创建 XML 文档 catalog.xml。

清单 3. 生成 XML 文档 catalog.xml 的程序（XmlDom4J.java）

import org.dom4j.Document

import org.dom4j.DocumentHelper

import org.dom4j.Element

import org.dom4j.io.XMLWriter

import java.io.*

public class XmlDom4J{

public void generateDocument(){

Document document = DocumentHelper.createDocument()

Element catalogElement = document.addElement("catalog")

catalogElement.addComment("An XML Catalog")

catalogElement.addProcessingInstruction("target","text")

Element journalElement = catalogElement.addElement("journal")

journalElement.addAttribute("title", "XML Zone")

journalElement.addAttribute("publisher", "IBM developerWorks")

Element articleElement=journalElement.addElement("article")

articleElement.addAttribute("level", "Intermediate")

articleElement.addAttribute("date", "December-2001")

Element titleElement=articleElement.addElement("title")

titleElement.setText("Java configuration with XML Schema")

Element authorElement=articleElement.addElement("author")

Element firstNameElement=authorElement.addElement("firstname")

firstNameElement.setText("Marcello")

Element lastNameElement=authorElement.addElement("lastname")

lastNameElement.setText("Vitaletti")

document.addDocType("catalog",

null,"file://c:/Dtds/catalog.dtd")

try{

XMLWriter output = new XMLWriter(

new FileWriter( new File("c:/catalog/catalog.xml") ))

output.write( document )

output.close()

}

catch(IOException e){System.out.println(e.getMessage())}

}

public static void main(String[] argv){

XmlDom4J dom4j=new XmlDom4J()

dom4j.generateDocument()

}}

这一节讨论了创建 XML 文档的过程，下一节将介绍使用 dom4j API 修改这里创建的 XML 文档。

回页首

修改文档

这一节说明如何使用 dom4j API 修改示例 XML 文档 catalog.xml。

使用 SAXReader 解析 XML 文档 catalog.xml：

SAXReader saxReader = new SAXReader()

Document document = saxReader.read(inputXml)

SAXReader 包含在 org.dom4j.io 包中。

inputXml 是从 c:/catalog/catalog.xml 创建的 java.io.File。使用 XPath 表达式从 article 元素中获得 level 节点列表。如果 level 属性值是“Intermediate”则改为“Introductory”。

List list = document.selectNodes("//article/@level" )

Iterator iter=list.iterator()

while(iter.hasNext()){

Attribute attribute=(Attribute)iter.next()

if(attribute.getValue().equals("Intermediate"))

attribute.setValue("Introductory")

}

获取 article 元素列表，从 article 元素中的 title 元素得到一个迭代器，并修改 title 元素的文本。

list = document.selectNodes("//article" )

iter=list.iterator()

while(iter.hasNext()){

Element element=(Element)iter.next()

Iterator iterator=element.elementIterator("title")

while(iterator.hasNext()){

Element titleElement=(Element)iterator.next()

if(titleElement.getText().equals("Java configuration with XML Schema"))

titleElement.setText("Create flexible and extensible XML schema")

}}

通过和 title 元素类似的过程修改 author 元素。

清单 4 所示的示例程序 Dom4JParser.java 用于把 catalog.xml 文档修改成 catalog-modified.xml 文档。

清单 4. 用于修改 catalog.xml 的程序（Dom4Jparser.java）

import org.dom4j.Document

import org.dom4j.Element

import org.dom4j.Attribute

import java.util.List

import java.util.Iterator

import org.dom4j.io.XMLWriter

import java.io.*

import org.dom4j.DocumentException

import org.dom4j.io.SAXReader

public class Dom4JParser{

public void modifyDocument(File inputXml){

try{

SAXReader saxReader = new SAXReader()

Document document = saxReader.read(inputXml)

List list = document.selectNodes("//article/@level" )

Iterator iter=list.iterator()

while(iter.hasNext()){

Attribute attribute=(Attribute)iter.next()

if(attribute.getValue().equals("Intermediate"))

attribute.setValue("Introductory")

}

list = document.selectNodes("//article/@date" )

iter=list.iterator()

while(iter.hasNext()){

Attribute attribute=(Attribute)iter.next()

if(attribute.getValue().equals("December-2001"))

attribute.setValue("October-2002")

}

list = document.selectNodes("//article" )

iter=list.iterator()

while(iter.hasNext()){

Element element=(Element)iter.next()

Iterator iterator=element.elementIterator("title")

while(iterator.hasNext()){

Element titleElement=(Element)iterator.next()

if(titleElement.getText().equals("Java configuration with XML

Schema"))

titleElement.setText("Create flexible and extensible XML schema")

}

list = document.selectNodes("//article/author" )

iter=list.iterator()

while(iter.hasNext()){

Element element=(Element)iter.next()

Iterator iterator=element.elementIterator("firstname")

while(iterator.hasNext()){

Element firstNameElement=(Element)iterator.next()

if(firstNameElement.getText().equals("Marcello"))

firstNameElement.setText("Ayesha")

}

list = document.selectNodes("//article/author" )

iter=list.iterator()

while(iter.hasNext()){

Element element=(Element)iter.next()

Iterator iterator=element.elementIterator("lastname")

while(iterator.hasNext()){

Element lastNameElement=(Element)iterator.next()

if(lastNameElement.getText().equals("Vitaletti"))

lastNameElement.setText("Malik")

}

XMLWriter output = new XMLWriter(

new FileWriter( new File("c:/catalog/catalog-modified.xml") ))

output.write( document )

output.close()

}

catch(DocumentException e)

{

System.out.println(e.getMessage())

}

catch(IOException e){

System.out.println(e.getMessage())

}

public static void main(String[] argv){

Dom4JParser dom4jParser=new Dom4JParser()

dom4jParser.modifyDocument(new File("c:/catalog/catalog.xml"))

}

这一节说明了如何使用 dom4j 中的解析器修改示例 XML 文档。这个解析器不使用 DTD 或者模式验证 XML 文档。如果 XML 文档需要验证，可以解释用 dom4j 与 JAXP SAX 解析器。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：六星教育：Python和go语言都很火，我要怎么选？

# 下一篇：js中常见的数据加密与解密的方法

推荐阅读

热门文章

最新发布

标签列表

DOM4J可以处理html文件吗? 怎么处理

给您推荐相同类型的内容：