html标签显示都是有替换的 就像空格是&nbsp一样 其他标签
比如 左括号<就是&lt 右括号>就是&gt
<div>&ltdiv&gt&lt/div&gt</div>下面是是基本的转义符
Α &Alpha
Δ &Delta
Η &Eta
Κ &Kappa
Ν &Nu
Π &Pi
Τ &Tau
Χ &Chi
α &alpha
δ &delta
η &eta
κ &kappa
ν &nu
π &pi
σ &sigma
φ &phi
ω &omega
ϖ &piv
′ &prime
⁄ &frasl
ℜ &real
← &larr
↓ &darr
⇐ &lArr
⇓ &dArr
∂ &part
∇ &nabla
∋ &ni
− &minus
∝ &prop
∧ &and
∪ &cup
∼ &sim
≠ &ne
≥ &ge
⊄ &nsub
⊕ &oplus
⋅ &sdot
⌊ &lfloor
♠ &spades
♦ &diams
¢ &cent
¥ &yen
¨ &uml
« &laquo
® &reg
± &plusmn
´ &acute
< &lt
Β &Beta
Ε &Epsilon
Θ &Theta
Λ &Lambda
Ξ &Xi
Ρ &Rho
Υ &Upsilon
Ψ &Psi
β &beta
ε &epsilon
θ &theta
λ &lambda
ξ &xi
ρ &rho
τ &tau
χ &chi
ϑ &thetasym
• &bull
″ &Prime
℘ &weierp
™ &trade
↑ &uarr
↔ &harr
⇑ &uArr
⇔ &hArr
∃ &exist
∈ &isin
∏ &prod
∗ &lowast
∞ &infin
∨ &or
∫ &int
≅ &cong
≡ &equiv
⊂ &sub
⊆ &sube
⊗ &otimes
⌈ &lceil
⌋ &rfloor
♣ &clubs
空格 &nbsp
£ &pound
¦ &brvbar
© &copy
¬ &not
¯ &macr
² &sup2
µ &micro
> &gt
Γ &Gamma
Ζ &Zeta
Ι &Iota
Μ &Mu
Ο &Omicron
Σ &Sigma
Φ &Phi
Ω &Omega
γ &gamma
ζ &zeta
ι &iota
μ &mu
ο &omicron
ς &sigmaf
υ &upsilon
ψ &psi
ϒ &upsih
… &hellip
‾ &oline
ℑ &image
ℵ &alefsym
→ &rarr
↵ &crarr
⇒ &rArr
∀ &forall
∅ &empty
∉ &notin
∑ &sum
√ &radic
∠ &ang
∩ &cap
∴ &there4
≈ &asymp
≤ &le
⊃ &sup
⊇ &supe
⊥ &perp
⌉ &rceil
◊ &loz
♥ &hearts
¡ &iexcl
¤ &curren
§ &sect
ª &ordf
° &deg
³ &sup3
" &quot
HTML是超文本标记语言,标准通用标记语言下的一个应用。
“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。
超文本标记语言的结构包括“头”部分(英语:Head)、和“主体”部分(英语:Body),其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。
1、在做接口的时候,有些模板xml标签不是CDATA规范的,这样就会在碰到&这样的字符出现错误,需要替换,简单的思路是字符串替换或正则匹配,将&替换成&。
2、特别是有些专辑描述是html的内容,写入xml文件的时候需要将html内容转化为文本内容。
3、下面给出HTML内容输出为存文本的两种工具方法,方便以后查阅。
方法一:正则替换:
/**
* html转化为text
* @param inputString
* @return
*/
public static String html2Text(String inputString) {
String htmlStr = inputString// 含html标签的字符串
String textStr = ""
java.util.regex.Pattern p_script
java.util.regex.Matcher m_script
java.util.regex.Pattern p_style
java.util.regex.Matcher m_style
java.util.regex.Pattern p_html
java.util.regex.Matcher m_html
try {
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"// 定义script的正则表达式{或<script>]*?>[\s\S]*?<\/script>
// }
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"// 定义style的正则表达式{或<style>]*?>[\s\S]*?<\/style>
// }
String regEx_html = "<[^>]+>"// 定义HTML标签的正则表达式
p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE)
m_script = p_script.matcher(htmlStr)
htmlStr = m_script.replaceAll("")// 过滤script标签
p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE)
m_style = p_style.matcher(htmlStr)
htmlStr = m_style.replaceAll("")// 过滤style标签
p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE)
m_html = p_html.matcher(htmlStr)
htmlStr = m_html.replaceAll("")// 过滤html标签
textStr = htmlStr
} catch (Exception e) {
System.err.println("Html2Text: " + e.getMessage())
}
return textStr
}
方法二:采用api形式,先倒入jar包htmllexer.jar,htmlparser.jar,sitecapturer.jar,thumbelina.jar,filterbuilder.jar :
public static String getHtmlText(String htmlContent) throws Exception
{
if(htmlContent==null)htmlContent=""
// 增加一个<br/>,经测试,如果正文为纯文本,org.htmlparser会把参数当作一个文件处理
StringBuffer sbf = new StringBuffer("")
sbf.append("<br />").append(htmlContent)
Parser parser = new Parser(sbf.toString())
TextExtractingVisitor visitor = new TextExtractingVisitor()
parser.visitAllNodesWith(visitor)
String sReturn = visitor.getExtractedText()
sReturn = sReturn.replace(" ", "")//去掉空格以便统计字数
return sReturn
}
displaythat是一个用于在网页上显示文本内容的HTML标签。它可以让你在网页上显示任何文本,而不需要使用其他标签。它可以用于显示文本、段落、列表、表格、图像等等。使用displaythat标签的语法如下:
<displaythat>文本内容</displaythat>
其中,<displaythat>是开始标签,</displaythat>是结束标签,文本内容是要显示的文本内容。
例如,如果要在网页上显示“Hello World”,可以使用以下语法:
<displaythat>Hello World</displaythat>
displaythat标签还可以指定文本的样式,例如字体、颜色、大小等等。例如,如果要让文本以红色显示,可以使用以下语法:
<displaythat style="color:red">Hello World</displaythat>
此外,displaythat标签还可以指定文本的位置,例如居中、居左、居右等等。例如,如果要让文本居中显示,可以使用以下语法:
<displaythat style="text-align:center">Hello World</displaythat>
总之,displaythat标签可以让你在网页上显示任何文本,并且可以指定文本的样式和位置,使得网页更加美观。