Jsoup怎样从Html文件中提取正文内容?

2023-02-18 15:37:01html-css050

Jsoup怎样从Html文件中提取正文内容?,第1张

Jsoup从Html文件中提取正文内容\x0d\x0a示例代码：\x0d\x0aFileinput=newFile("/tmp/input.html")\x0d\x0aDocumentdoc=Jsoup.parse(input,"UTF-8","/example.com/")\x0d\x0a\x0d\x0aElementcontent=doc.getElementById("content")\x0d\x0aElementslinks=content.getElementsByTag("a")\x0d\x0afor(Elementlink:links){\x0d\x0aStringlinkHref=link.attr("href")\x0d\x0aStringlinkText=link.text()\x0d\x0a}\x0d\x0ajsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。\x0d\x0ajsoup的主要功能如下：\x0d\x0a1.从一个URL，文件或字符串中解析HTML；\x0d\x0a2.使用DOM或CSS选择器来查找、取出数据；\x0d\x0a3.可操作HTML元素、属性、文本；

Jsoup从Html文件中提取正文内容

示例代码：

File input = new File("/tmp/input.html")

Document doc = Jsoup.parse(input, "UTF-8", "/example.com/")

Element content = doc.getElementById("content")

Elements links = content.getElementsByTag("a")

for (Element link : links) {

String linkHref = link.attr("href")

String linkText = link.text()

}

jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup的主要功能如下：

1. 从一个URL，文件或字符串中解析HTML；

2.使用DOM或CSS选择器来查找、取出数据；

3. 可操作HTML元素、属性、文本；

/**

* 这个文件实现了：将指定目录下的所有htm和html文件的<title>标签的值，替换成文件名（不含后缀）。

import java.io.File

import java.io.FileOutputStream

import java.io.IOException

import java.io.OutputStreamWriter

import org.jsoup.Jsoup

import org.jsoup.nodes.Document

import org.jsoup.nodes.Element

public class Rename {

public static void main(String[] args) {

// 默认文件夹路径

String path = "C:\\report"

if(args != null &&args.length >0){

path = args[0]

}

try {

renameHTMLTitle(path)

} catch (IOException e) {

e.printStackTrace()

}

public static void renameHTMLTitle(String dir) throws IOException {

File f = new File(dir)

if (f.isDirectory()) {

File fs[] = f.listFiles()

for (File s : fs) {

String title = s.getName().replaceAll(".htm", "").replaceAll(".html", "")

if(s.getName().contains(".htm") || s.getName().contains(".html")){

Document doc = Jsoup.parse(s, "gb2312")

Element titleEl = doc.select("title").first()

titleEl.html(title)

* Jsoup只是解析，不能保存修改，所以要在这里保存修改。

FileOutputStream fos = new FileOutputStream(s, false)

OutputStreamWriter osw = new OutputStreamWriter(fos, "gb2312")

osw.write(doc.html())

osw.close()

}

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：怎么设置不让电脑休眠

# 下一篇：电脑上不显示桌面图标怎么办？

给您推荐相同类型的内容：

如何CSS的a:hover完成替换背景图片？
可以在hover伪类中用background或者background-image实现。例如：页面上有一个原本背景图为img1.png，当鼠标滑过则换为img2.png.在CSS中这样定义.div_style:hover{background
JavaScript怎样做出一个画圆圈的效果啊，比如一张图片是一个小圆点，怎样让这个小圆点以20p
&lt!DOCTYPE html&gt&lthtml lang="en"&gt&lthead&gt&ltmeta charset="UTF-8"
Js的《孩子》歌词
孩子作词：陈忠义作曲：陈忠义演唱：JS睁开好奇的眼睛踏着探索的足迹每一天都是新的练习想像大树骄傲地呼吸想和飞鸟去环球旅行用渴望的脚步奔跑用纯粹的快乐微笑不管明天又多混乱吵闹我会爱你用我所有力气陪着你像太阳不休息睡吧在世界变得复杂之前
如何防止电脑辐射
防止电脑辐射方法建议电脑族们可以采取以下的一些方法来对抗电脑辐射： 1、使用完电脑后要记得洗手，洗脸，这样可以减少百分之七十的辐射率。 2、每天坚持喝绿茶，菊花茶加枸杞子可以抵抗电脑辐射和调节身体功能，对您的身体有很大的好处
用java写一个邮件发送代码
public boolean mainto() {boolean flag = true建立邮件会话Properties pro = new Properties()pro.put("mail.smtp.h
如何给XP系统硬盘分区？
第一种方法：使用XP自己的磁盘管理进行分区：注意：这种硬盘分区方法不能对C盘操作（如果你只有一个盘符C，也不能使用此法）；警告：这种硬盘分区方法会造成除系统盘以外的其它盘符数据丢失，请在实施前转移重要的数据；分区详细步骤：1、右键我
Python中用PIL库批量给图片加上序号的教程
这篇文章主要介绍了Python中用PIL库批量给图片加上序号的教程,PIL库是Python中一个非常强大的处理图片的库,需要的朋友可以参考下女友让我给她论文的图片上加上字母序号，本来觉得是个很简单的事情，但那个白底黑字的圆圈序号却难住了我，
html怎么获取动态数据？
可以使用动态HTML从一个HTML页面元素中获取数据。它允许获取和操作数据而不需经过服务器。使用页面上对象的属性，在 Visual Basic x0dx0a代码中可以在页面上搜集数据、执行计算并显示响应，而不需将处理从客户端传送到服务器
如何查看自己电脑的ip地址
方法1：在win10系统中，选择本机连接的无线网络，鼠标右键点击属性，接着在弹出的设置里面翻到最下面，就可以看见本机的ip地址了。方法2：1，按住win+r 运行，输入cmd，点击确定，在命令符中输入 ipconfig 敲车，在最下方就
怎么查看电脑显卡型号？
查看电脑显卡的具体方法如下：机型：联想y7000系统：Windows10操作软件：控制面板1、找到显卡控制面板打开，具体位置在控制面板里可以看到，也可以右键直接点击显卡的控制面板“NVIDIA控制面板”。2、然后找到左下角的“系统信
利用Java语言代码输入一行字符分别统计其中英文字母、空格、数字和其他字符的个数。
123456789101112131415161718192021222324public static void main(String[] args) throws IOException { BufferedReader
怎样把电脑显示屏的亮度调暗一点？
显示屏亮度调节方法如下：1，打开电脑后，回到电脑桌面。2，点击菜单栏的“开始”，点击“控制面板”，再选择“个性化”，（或者单击鼠标右键，选择“个性化”）。3，看到了“更改计算机上视觉效果和声音”这个界面，我们看到在这里我们可以进行“更改桌
电脑文档怎么保存
操作方法如下：工具：戴尔电脑系统：win10.0软件：WPS软件1、首先在桌面上新建一个空白的word文档，以便于演示。2、这时在word文档里插入一张图片。3、然后在图片上右击，将图片另存一下。4、将保存位置选为“桌面”，可以更改
电脑关不了机怎么办
具体操作流程如下：没有需要保存的文件，可以长按电脑的关机键超过5秒来强制关机，或者鼠标右键点击任务栏空白处，选择【任务管理器】，在占用内存的软件进程上单击鼠标右键，选择结束任务，依次将运行中的任务关闭，再将电脑关机。其一、要注意防尘，防潮与
java 判断是否字母
import java.util.Scanner** * java 判断是否字母 * * @author Retror * *public class IsStr {public static void main(String
如何让html页面兼容ie浏览器
按照W3C标准来布局就可以达到各浏览器的兼容效果，不只是IE了。各浏览器的解析标准不同而导致的，同样的页面展示在不同浏览器里时，展示效果也不同，为达到同样的效果，需要对浏览器的解析进行重置，也就是初始化。初始化一般是CSS对页面标签的重置设
电脑关机关不了是什么原因？
脑关不了机的原因一般如下：1.系统文件中自动关机程序有缺陷。为了确认是否是这个原因所致，可以作下述实验。在“开始运行”中输入命令：“rundll32 user.exe，exitwindows”，看看能否正常关机。如果在这个命令下可以正常关
用线把电脑和电视连接后，切换屏幕的快捷键是什么？
笔记本一般是功能键（Fn）加F8或F1-F12中的任意一个，键上有小电脑和显示器的那种。如果是台式机的话，可以按如下处理步骤。在桌面单击鼠标右键，选择屏幕分辨率2.在多显示器选项里有扩展、复制等选项。扩展表示两个屏幕只有桌面背景一样；复
CSS中设定字体如何设定为微软雅黑Bold字体？
1、首先要了解css中是如何控制字体的。x0dx0afont：在一个声明中设置所有字体属性；x0dx0afont有以下几个属性：x0dx0ax0dx0afont-style：字体样式x0dx0ax0dx0afont-
电脑上如何拍摄照片
问题一：怎么在电脑上拍照片摄像头拍照可以有三种使用方式。第一，使用Windows自带的拍照程序，点开“我的电脑”就能看到摄像头图标，直接点击进入就能启动摄像头进行拍照。好处是使用简单，不用额外安装拍照程序，但是功能比较单一，缺乏效
电脑怎么定位
操作方法如下：1、在电脑上打开浏览器，输入vivo云服务，如下图所示：2、进入后，选择输入账号和密码登录，如下图所示：3、再点击右下角的查找手机，如下图所示：4、届时开始定位操作，请稍微等待下，如下图所示：5、定位成功，可以点击右侧的指令
win7自带的风景壁纸的拍摄地点都分别是哪里？
windows7自带的六张风景壁纸全都来自中国，具体如下：‍1、图片CN-wp2.jpg拍摄于中国广西桂林漓江风光。2、图片CN-wp2.jpg拍摄于中国长城。3、图片CN-wp3.jpg拍摄于中国安徽雪中黄山。4、图片CN-wp4
电脑备份数据怎么备份
电脑备份文件的方法如下：工具／原料：联想GeekPro2020、Windows 10、本地设置。1、打开电脑设置界面，点击更新和安全。2、点击备份。3、点击转到备份和还原（Windows 7)。4、点击更改设置。5、点击下一步。6、勾选
利用Javascript实现用户注册信息检查
页面就不写了，帮你把验证的js方法写好了。调用的话，你在form的onsubmit时调用就行。&ltscript&gt 用户名要以字母开头；var isUserName = function(s){ va
JS怎么调用API接口
需要准备的材料分别是：电脑、html编辑器、浏览器。1、首先，打开html编辑器，新建html文件，例如：index.html，引入jquery使用。2、在index.html的&ltscript&gt标签中，输入js代码
html页面仿投票效果，怎么做
用Cookie来记录最后一次投票的时间，每次投票时就和当前时间作对比，可以防止重复投票，票数也用Cookie来记录，但只能对同一台机器有效了。我只能给你设置和读取Cookie的代码，怎么用只是取决于你的业务逻辑，很简单自己实现吧。*设置c
电脑上不显示桌面图标怎么办？
两种情况：1、一种是自己设置了，不显示桌面图标，打勾即可。2、另外一个就是资源管理器未正常运行。3、可以按Ctrl+Shift+Esc打开任务管理器，按e，找到explorer.exe右键，结束进程。再点击文件--新建运行-explo
软件开发用什么电脑
问题一：要做软件开发，买什么笔记本好你这种情况必须买商用机，家用机散热差点，容易死机。抚万不要买Y450那种机器，显卡好，但是你不需要；散热差，稳定性差。编译程序对显卡要求不高，所以建议买个CPU好、散热好的机器。索尼擅长的是设计，散热
有哪些可以赚钱的网络游戏？
例举以下几种可以赚钱的游戏1：魔兽世界怀旧服端游魔兽世界怀旧服，现在可以说热度非常高，甚至是已经压过了赚钱的常青树DNF，游戏内赚钱的方式也多种多样，出进点也非常多不过这款游戏想赚钱，需要对游戏有着一定的了解，对于操作也有着一定的要求。
电脑增高架怎么搜便宜
按价格搜。搜电脑增高架后，按照价格排序，从低到高，就可以找到便宜的电脑增高架。电脑增高架可以调整坐姿，从这个方面看，对于颈椎有一定的保护作用。很多朋友都习惯了使用笔记本电脑，我们日常生活也离不开笔记本电脑的使用，很多朋友都在选择的时候出现

推荐阅读

热门文章

最新发布

标签列表

Jsoup怎样从Html文件中提取正文内容?

给您推荐相同类型的内容：