java jsoup怎样爬取特定网页内的数据

2023-02-20 17:00:02Python07

java jsoup怎样爬取特定网页内的数据,第1张

1、Jsoup简述

Java中支持的爬虫框架有很多，比如WebMagic、Spider、Jsoup等。

Jsoup拥有十分方便的api来处理html文档，比如参考了DOM对象的文档遍历方法，参考了CSS选择器的用法等等，因此我们可以使用Jsoup快速地掌握爬取页面数据的技巧。

2、快速开始

1)分析HTML页面，明确哪些数据是需要抓取的

2)使用HttpClient读取HTML页面

HttpClient是一个处理Http协议数据的工具，使用它可以将HTML页面作为输入流读进java程序中.

3)使用Jsoup解析html字符串

通过引入Jsoup工具，直接调用parse方法来解析一个描述html页面内容的字符串来获得一个Document对象。该Document对象以操作DOM树的方式来获得html页面上指定的内容。

3、保存爬取的页面数据

1)保存普通数据到数据库中

将爬取的数据封装进实体Bean中，并存到数据库内。

2)保存图片到服务器上

直接通过下载图片的方式将图片保存到服务器本地。

根据java网络编程相关的内容，使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码，通过使用正则表达式即可得到我们想要的内容。

比如，我们如果想得到一个网页上所有包括“java”关键字的文本内容，就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容，只得到包括“java”这个关键字的内容的效果。

从网页上爬取图片的流程和爬取内容的流程基本相同，但是爬取图片的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的图片url，然后再通过缓冲输入流对象读取到这个图片url的图片信息，配合文件输出流将读到的图片信息写入到本地即可。

页面内容数据图片对象

# 上一篇：电脑上的拼音字母怎么打上去

# 下一篇：如何更改电脑主页?

给您推荐相同类型的内容：

买电脑去哪个网站比较好？
买电脑比较好的平台如下：1、淘宝网。在中国，淘宝网可以说是网购的代名词，有接近5亿的注册用户，而且平台上的在线商品总数已经超过10亿件，被广大网友称之为“万能的淘宝”。随着淘宝网规模的扩大和用户数量的增加，淘宝也从单一的C2C网络集市变成
怎样使笔记本电脑一直保持运行状态，而不进入待机状态？
可以在控制面板的电源选项里设置电脑保存运行不进入待机状态。具体设置方法如下：1、电脑桌面找到计算机点击打开。2、找到控制面板选项点击并打开。3、找到电源选项，打开进入，如图。4、选择更改计算机睡眠时间，点击打开，如图。5、在关闭显示器和
系统修复软件哪个好用，求推荐？
一、冰点还原冰点还原这款电脑系统还原软件它很智能，可以选择电脑保护的控制状态，如下图所示有三个选项：若选择第一个选项“启动后冻结”，那在系统重启后即恢复为原始状态若选择第二个选项“启动后解冻下_重启”，那就会在第几次重启以后恢复为原始状态若
Web前端基础】css中浮动属性有什么？
css中的浮动属性是float。属性值有几个我不太清楚，不过常用的就是left和right，即左浮动和右浮动。左浮动就是设置了浮动样式的元素飘到了屏幕左侧，飘是表示元素脱流了。右浮动同理。值得一提的是浮动元素的父元素是没有高度的，需要做一些
如何在电脑上看光盘?
具体操作如下：1、首先要确保你的电脑具有光驱，现在部分笔记本电脑没有这个功能，一般在笔记本右侧就可以看到，如果笔记本右侧有图中所示光驱按钮则说明电脑具有光驱，反之则没有2、确认电脑具有光驱后，找到光驱启动按钮，按下按钮，光驱支架就会弹出来
台式机电源线接法图解是怎样的？
台式机电源怎么选组装台式电脑机箱电源线接法图解电脑电源是电脑各部件供电的枢纽，是电脑的重要组成部分。把220V交流电，转换成直流电，分别输送到各个元件。参考如下：1、电源灯跳线和硬盘灯跳线，如下图中内容所表示。2、电源开关跳线和重启复位
ruby前景怎么样?
首先, ruby是日本人开发的, 但是不是日语的其次, 不如php快, 可能性能不如php, 但是开发速度来说绝对是甩php几条街支持, ruby的服务器少, 这个确实是相对较少, 但是据我所知云服务器有很多都支持, 国内的有阿里,青云,
利用电脑主板BIOS的报警声音辨别电脑故障
利用电脑主板BIOS的报警声音辨别电脑故障的方法分享给大家，当我们的电脑遇到了故障却苦于一直找不到原因的时候我们就可以根据开机时电脑主板BIOS所发出的的错误提示声音来辨别，可能很多人还是第一次听说可以根据声音辨别的吧，没错，只要我们熟悉
电脑蓝牙驱动怎么安装
问题一：怎么在电脑上装蓝牙驱动？先把IVT装上，装好以后，它会提示让你插入蓝牙硬件，把失陪器 *** 去，等着，过一会，就提示说硬件已经安装，可以使用了。重起一次，打开刚才装的那个IVT，点中间那个圆球，它就开始自动搜索，把手机上的蓝
玩吃鸡电脑配置推荐
玩绝地求生（吃鸡游戏）电脑推荐配置标准是Windows7Windows10的64位操作系统、内存推荐要求是16G、CPU推荐要求是Intel i5-7600KAMD R5-1500X。此外还有电脑显卡推荐要求是GTX 1060 （荐）
打印机扫描功能怎么使用？
打印机扫描功能的使用方法是先将电脑和打印机连在一起，点击桌面上的【控制面板】，找到【设备和打印机】，点击【开始扫描】即可。具体如下：1、首先将电脑和打印机连在一起。2、将要扫描的文件放在打印机里。3、点击桌面上的【控制面板】。4、点击【硬
怎么让“bat文件”自动运行？
把这个bat复制到某个文件夹下，当然这个文件夹要找尽量不让别人发现的，比如在c:windowssystem32建立一个文件夹kaijiyunxing，然后把你的bat（比如1.bat）复制下去，再在注册表的run值下写个开机运行这个文
电脑玩游戏老是自动重启的解决方法
电脑玩游戏老是自动重启的解决方法一：1、病毒，清除病毒，木马。可以使用金山毒霸等免费为电脑杀毒体检! 2、检查CPU和显卡的温度是否过高，CPU和显卡温度过高常常会引起保护性自动重启。给风扇除尘，上油或更换新风扇。 3
电脑出现超频怎么办
具体解决方法操作步骤如下：1、按下电脑开机键后连续按F8。2、从上一步可进入下图界面。通过键盘“↑”“↓”键选中“安全模式”。3、单击键盘上回车键，等待进入系统。4、在桌面单击鼠标右键，选择“屏幕分辨率”。5、点击弹出的对话框页面中右部
电脑键盘哪个键是音量
1、Windows Media Player中按F9可以使音量降低；按F10可以增大音量。2、在Winamp中按“Ctrl+Alt+↓”可以降低音；按“Ctrl+Alt+↑”可以增大音量。3、在MPC中，可以分别用“Win+↓(↓)”来使
CSS怎么把li内容显示在一行？
1、input {display:blockfloat:left}ul {margin:0pxpadding:0pxfloat:left}这样就可以让input和ul显示在一行了。但这样出现的问题是，紧跟着的内容也会跑到一行去，所以这
c语言中如何开根号运算
用math.h里封装好的函数，具体如下：求平方根：double sqrt(double x)例：#include &ltmath.h&gt#include &ltstdio.h&gtint main
翻页css代码怎么用
那些只是翻页链接的css样式，基本不包含翻页的功能。最简单的方法，你可以在每个页数的超链接地址里面填上相应的页面地址，不过这样做出的是静态页面。还是做成动态的比较好一点。如下代码，纯手打，和你的一模一样，望采纳：&ltstyle&
写代码的电脑需要什么配置？
答：用来写代码和运行代码的笔记本配置，要看写的是什么程序，运行的是什么开发环境。（1）如果运行数据库，比如SQL Server，建议大内存，高速CPU。（2）如果要运行虚拟机，比如VMWare，内存大，CPU也不能差，硬盘空间也要大，转速也
电脑什么牌子的好
好牌子的电脑有联想电脑、苹果电脑、惠普电脑、戴尔电脑、华硕电脑。1、联想电脑联想是世界500强企业之一，全球领先的PC电脑制造商。此外，ThinkPad品牌在联想于2005年收购IBMPC部门后归联想所有。2、苹果电脑苹果公司是全球高
电脑更新的软件怎么恢复旧版本？
在电脑中把需要更新的软件卸载了，重新下载旧版再安装就好更新后有关软件的文件就变了不能直接变回旧版系统自带的软件除外。“守旧”的理由能掰着指头说上半天，比如各种功能用惯了不想改变，闭着眼睛都知道各项功能在哪里……但最理直气壮的还是这
css 调用二级栏目代码问题
主要分3种方法：1.行内式，就是直接在网页中加入css样式表，在标记的后面加上style属性来设定css样式。如：&ltp style="font-size:12pxcolor:#000"&gt行内式测试
一段感人视频的分享
https:b23.tvav4366823p1我是在b站看的这个视频，当时看完特别感动。并且没事会回来看看，所以推荐这个故事作为我所知道的最感人最励志的故事备选。已经成年的ruby，是一个作家，也是一个残障人士志愿者，但是她的经历可
如何实现多台电脑互联共享文件?
1、所有电脑都连上同一个路由器。或同一网段内能互相PING通。2、右击桌面网络——属性——更改高级共享设置。3、选择公共网络——选择以下选项：启动网络发现——启动文件和打印机共享——启用共享以便可以访问网络的用户可以读取和写入公用文件夹中
如何更换电脑主机开关电源
拔掉电源线，并拆开电脑主机盖板。用十字螺丝刀拆下固定开关电源的四个螺丝。拔下开关电源与主板的连线。拔下开关电源与硬盘的连线。小心拿出开关电源，注意不要碰到主板。换上新的开关电源，注意不要碰到主板，并装上螺丝。插上开关电源与主板的
卧室中电脑摆放在哪里
卧室中电脑摆放在哪里卧室中电脑摆放在哪里，家中的风水不仅是影响一个人的运势，更是关乎整个家庭的兴旺，卧室是风水中重要的地方，其中物件的摆放会影响整体风水，下面分享卧室中电脑摆放在哪里。卧室中电脑摆放在哪里1 1、命局喜火之
电脑怎么样设为驱动模式？按什么键
一、将bios设置调成光盘启动：1、开机，并按住DEL键不放，直到出现BIOS设置的蓝色窗口；2、将光标移动到（按↑、↓、←、→）“Advanced BIOS Features(高级BIOS功能设置)”，按Enter（回车）键，出现“Adv
java浏览器课程设计
⑴ 怎样用Java制作一个简单浏览器解决方法importjavax.swing.*importjava.awt.*importjava.awt.event.*importjava.*importjava.io.*impo
win10笔记本取消文件复制时自动命名副本的方法
在我们平时使用Win10系统笔记本电脑的过程中，如果在原文件路径中复制一个文件时，复制的文件会自动被命名为“副本”字样，那么我们该怎么去掉副本字样呢?下面就由我跟大家分享具体的处理方法吧，希望对大家有所帮助~ win笔记本取消文件复制时
什么叫电脑安全模式?
安全模式是Windows的一个用于修复操作系统错误的窗口模式。进入安全模式，系统不会加载很多硬件的驱动程序，比如显示卡、网卡等，这样方便用户排除问题，修复错误。比如显示分辨率设置超出显示器显示范围，导致黑屏，那么进入安全模式可以改变回来。进

推荐阅读

热门文章

最新发布

标签列表

java jsoup怎样爬取特定网页内的数据

给您推荐相同类型的内容：