最新发布

# 2023-02-17
CSS中font是什么意思？
CSS中font是设置字体属性的。font在css的作用就是在一个声明中设置所有字体属性：举例说明：&lthtml&gt&lthead&gt&ltstyle type="text
# 2023-02-17
如何设置css让元素不自动换行
关于css让元素换行限制如下：1强制不换行 div{ white-space:nowrap}2自动换行 div{ word-wrap: break-wordword-break: normal}3强制英文单词断行 div{ word-bre
# 2023-02-17
如何用HTML来制作表格？
HTML中的表格由 &lttable&gt标签来定义，表格是由单元格组成的，单元格可以放入文字、图片、表格等内容。下面，我们来看看如何用HTML来制作表格吧。代码，先用&lttable&gt标签定义一个
# 2023-02-17
html网页制作教程
html是编程语言之一。下面，我们来看看html网页制作教程吧。 01新建记事本在桌面上，新建一张记事本，如下图所示：02编写代码打开记事本，编写代码，如下图所示：03修改后缀名把记事本修改后缀名为.h
# 2023-02-17
CSS3与CSS的区别有哪些
一、指代不同1、CSS3：是CSS（层叠样式表）技术的升级版本，于1999年开始制订，2001年5月23日W3C完成了CSS3的工作草案。2、CSS：是一种用来表现HTML（标准通用标记语言的一个应用）或XML（标准通用标记语言的一个子
# 2023-02-17
html 制作简单的搜索功能
1.打开Hbuilder编辑器，创建一个输入框和一个按钮，水平放置。2.首先，将“#7FCC0B”颜色的边框添加到输入框中，设置宽度和高度。然后，设置按钮按钮的白色字体和背景色“#7FCC0B”。3.按CRTL+s可以在软件的右边看到最终的
# 2023-02-17
css 兼容性问题
1.H5网页touch滑动的时候在苹果手机上出现不流畅的问题-webkit-overflow-scrolling 用来控制元素在移动设备上是否使用滚动回弹效果. 解决办法：给所有网页添加如下样式说明： -webki
# 2023-02-17
记录：CSS3 模糊效果
最近在写活动页面遇到一个效果，在黑色透明蒙层后面的元素要有模糊，毛玻璃的效果，最初想到的就是 filter: blur(2px) ，直接在元素上使用，但是整个子元素都被模糊了，而且蒙层的背景并没有效果，经过百般搜索和尝试，发现还有一个属性
# 2023-02-17
css如何设置方形单选按
1、新建一个html文件，命名为test.html，用于讲解。2、在test.html文件中，使用button标签创建一个按钮。3、在test.html文件中，设置button标签的class属性为mybtn。4、在css标签内，通过cla
# 2023-02-17
如何将css的背景颜色设置为无色
css的背景颜色设置为无色步骤如下：1、新建一个html文件，需要设置宽度250px和高度140px，以及背景色填充为红色。2、然后在父级DIV中插入一个子DIV，定义它的宽200px,高90px，以及背景色。3、然后添加一个无色（透明）的

java爬取知乎答案的时候，如何去除其中的HTML标签

2023-02-18 02:52:01html-css040

java爬取知乎答案的时候，如何去除其中的HTML标签,第1张

可以通过正则表达式去除html标签

import java.util.regex.Matcher

import java.util.regex.Pattern

public class HtmlUtil {

private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>" // 定义script的正则表达式

private static final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>" // 定义style的正则表达式

private static final String regEx_html = "<[^>]+>" // 定义HTML标签的正则表达式

private static final String regEx_space = "\\s*|\t|\r|\n"//定义空格回车换行符

/**

* @param htmlStr

* @return

* 删除Html标签

*/

public static String delHTMLTag(String htmlStr) {

Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE)

Matcher m_script = p_script.matcher(htmlStr)

htmlStr = m_script.replaceAll("") // 过滤script标签

Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE)

Matcher m_style = p_style.matcher(htmlStr)

htmlStr = m_style.replaceAll("") // 过滤style标签

Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE)

Matcher m_html = p_html.matcher(htmlStr)

htmlStr = m_html.replaceAll("") // 过滤html标签

Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE)

Matcher m_space = p_space.matcher(htmlStr)

htmlStr = m_space.replaceAll("") // 过滤空格回车标签

return htmlStr.trim() // 返回文本字符串

}

public static String getTextFromHtml(String htmlStr){

htmlStr = delHTMLTag(htmlStr)

htmlStr = htmlStr.replaceAll(" ", "")

htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1)

return htmlStr

}

public static void main(String[] args) {

String str = "<div style='text-align:center'> 整治“四风” 清弊除垢<br/><span style='font-size:14px'> </span><span style='font-size:18px'>公司召开党的群众路线教育实践活动动员大会</span><br/></div>"

System.out.println(getTextFromHtml(str))

}

}

很容易，首先建立一个字符串数组，也就是你需要过滤掉的html标签String[] filterArrays = new String[]{"<html>","</html>","<table>","</table>".....一系列有关html标签的东西}

当你得到一个html代码的字符串时你可以循环遍历上面的数组，然后调用String自带的方法replaceAll()

我给你简单的示范一下啊

String str = "dfgdgdfgdgd"//需要过滤的带有HTML标签的代码字符串

for(int i=0i<filterArrays.lengthi++){

if(str.indexOf(filterArrays[i])!=0){

str = str.replaceAll(filterArrays[i],"")//将html标签替换成了空格

}

}

这样就搞定了，主要是你需要在filterArrays中增加你需要过滤的字符串，当然还会有更好的办法，可以不用增加这样的数组，因为出现"<"必然会有">"，或者"/>"这样的标签，但是这样做可能会将一些无关的也过滤掉了，总之两种方法都可以，第一种呢我都给你写了例子！祝你成功啊

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：jsp页面表头锁定的问题

# 下一篇：如何在电脑上画图怎样在电脑上画图