请教下如何使用java做实时网页数据采集？

2023-02-25 09:22:02Python015

请教下如何使用java做实时网页数据采集？,第1张

String urlStr = ""// 网址

try {

//创建一个url对象来指向要采集信息的网址

URL url = new URL(urlStr)

//将读取到的字节转化为字符

InputStreamReader inStrRead = new InputStreamReader(url.openStream(),"utf-8")

//读取InputStreamReader转化成的字符

BufferedReader bufRead = new BufferedReader(inStrRead)

//读到的内容不为空

while (bufRead.readLine() != null) {

System.out.println(bufRead.readLine())

}

bufRead.close()

} catch (IOException e) {

e.printStackTrace()

}

Java网页数据采集器例子如下：

import java.util.regex.Matcher

import java.util.regex.Pattern

/**

* Group 类用于匹配和抓取 html页面的数据

public class Group {

public static void main(String[] args) {

// Pattern 用于编译正则这里用到了3个正则分别用括号()包住

// 第1个正则用于匹配URL 当然这里的正则不一定准确这个匹配URL的正则就是错误的只是在这里刚好能匹配出来

// 第2个正则是用于匹配标题 SoFlash的

// 第3个正则用于匹配日期

/* 这里只用了一条语句便把url,标题和日期全部给匹配出来了 */

Pattern p = Pattern

.compile("='(\\w.+)'>(\\w.+[a-zA-Z])-(\\d{1,2}\\.\\d{1,2}\\.\\d{4})")

String s = "<a href='http://www.cnblogs.com/longwu'>SoFlash-12.22.2011</a>"

Matcher m = p.matcher(s)

while (m.find()) {

// 通过调用group()方法里的索引将url,标题和日期全部给打印出来

System.out.println("打印出url链接:" + m.group(1))

System.out.println("打印出标题:" + m.group(2))

System.out.println("打印出日期:" + m.group(3))

System.out.println()

}

System.out.println("group方法捕获的数据个数:" + m.groupCount() + "个")

}

下输出结果:

打印出url链接:http://www.cnblogs.com/longwu

打印出标题:SoFlash

打印出日期:12.22.2011

group方法捕获的数据个数:3个

如果代码能力不是很好的话可以借助一些软件去抓取新闻的字段

把数据抓取下来以后可以选择存入数据库当中

需要去重的话，在Java的集合框架中就有HashSet和HashMap可以对数据去重

使用带Hash的集合时一定要注意，如果是存放自定义的对象一定要重写equals方法和HashCode方法

正则数据日期标题方法

# 上一篇：冰墩墩是怎么选出来的呢？

# 下一篇：讲讲go语言的结构体

给您推荐相同类型的内容：

Golang入门到项目实战 | golang中的if语句
go语言中的if语句和其他语言中的类似，都是根据给定的条件表达式运算结果来，判断执行流程。注意：在go语言中布尔表达式不用使用括号。根据布尔值flag判断程序运行结果初始变量可以声明在布尔表达式里面，注意它的作用域
没有Java基础怎么入行
零基础怎么学Java，最好的方法就是报个培训班，这样学习起来又快又好。我大学所学的专业是国际贸易，在毕业的时候找工作实在是太难太难了，因为个人对于计算机从高中起就有兴趣，但由于种种原因大学未能如愿学习本专业，因此想要寻找一份计算机相关的工作
JAVA怎么取多个List集合的交集？
1、把多个list放到一个list中，生成 List&ltList&ltObject&gt&gt结构2、遍历list，使用java8的规约操作，两两求交集list.stream().reduce((list1
r语言加载包不要信息
r语言加载包不要信息有两步操作。1、在加载tidyverse前先运行options(tidyverse.quiet=TRUE)2、然后再运行library(tidyverse)，就没有提示了。是的。每次使用程序包都必须首先加载。比如：lib
讲讲go语言的结构体
作为C语言家族的一员，go和c一样也支持结构体。可以类比于java的一个POJO。在学习定义结构体之前，先学习下定义一个新类型。新类型 T1 是基于 Go 原生类型 int 定义的新自定义类型，而新类型 T2 则是基于
R语言进行PCoA分析
#PCoA 分析在R语言中进行主要依赖于以下得包，进行这个分析得主要可以应用于形态学数据得相似与差异性分析。library(ade4)library(ggplot2)library(RColorBrewer)library(vegan)这里
C语言中运算符&是什么意思？
&amp: 在C语言中有两种意思，一种是取地址符，是单目运算符；另一种是位运算符，表示“按位与”，是双目运算符。|: 是位运算符，表示“按位或”。资料扩展1、符号 &amp和 | 这两个运算符都是二进制的按位操作符。&a
Java中水平制表符
在字符界面中，水平制表符表示紧跟后面的文字在往右一个表格位置显示或输出，通常一个表格位置占8个字符宽度，也就是相当于是把整个屏幕分成每8个字符为一个单元格大小，下一个表格位置是在下一个8的整倍数字符数的位置，使用水平制表符可以可以使文字内容
谁知道光明之魂2GBA金手指
中文版*金手指* VBA用代码 &lt调金钱&gt地址:0x030005ec 数值:65535(16位) &lt调P数&gt地址:0x0300047e 数值:不明(16位)(注:使用此金手指会当机，请小心使用
在 python 项目中如何记录日志
写本文的目的是我在写 python 项目的时候需要记录日志，我忘记怎么处理了，每次都需要去网上查一遍，好记性不如烂笔头，这里把查阅的内容记录下来，方便以后查找。 python 项目中记录日志，可以使用 logging 模块，lo
用Java如何求出一个整数的各位数字之和?
用Java求出一个整数的各位数字之和：先算出这个整数的位数，再取到一个整数的个位十位百位等等等，然后求和。如下：public static int sumDig(int n)int sum=0if(n&gt=10)sum+=
深圳Python培训班哪家好
市面上的深圳Python培训学校排名很多，但是具体哪一家培训机构好，需要从多方面进行对比，首先是课程，要对比课程设置、上课形式和培训效果等；其次是师资；尽量选择经验丰富、行业认可、踏踏实实传授知识的老师。第三是教学，一定要为学员提供真实的实
go语言web框架beego安装(go mod方式)
go语言web框架beego安装(go mod方式)_不忘初心，方得始终-CSDN博客重要:将bee命令放到GOROOTbin目录下，这步很关键 cp bee usrlocalgobin 注：或者可以将GOPAT
R语言分析各班学生成绩
分析来自5各班的5位中学生的成绩情况，数据必须确保已保存在本地，名称为“scores.txt” scores &lt- read.table("scores.txt",header=TRUE, row.nam
Java和c#对于物流行业来说哪个更有发展前景
针对物流行业来说，最好选用Java，C#虽然已经开始全面支持移动平台开发，但是现在还没有推广开，而Java对于移动平台的开发，具有相当的优势。物流行业软件，一般必不可少要通过移动平台访问，所以建议采用Java。Java 多线程可以在快递系统
c语言if(a)什么意思
if(a)：如果a为非0数字或字符那么就为真，if条件成立，反之不成立。扩展资料if(!a)：如果！a为真，也就是a为0时，if条件成立，反之不成立。if(a!=0)：如果a不等于0，则使得if条件成立，反之不成立。等价于if(a)。i
Selenium ruby常用api
#断言def assert_true(actual, expect) expect(actual).to eq(expect) end def assert_false(actual, expect) expect(actu
python如何在类中实例化一个字符串类型的变量
创建字符串：file_name 模块名module = __import__(file_name)AClass = getattr(module, class_name_str)()a = AClass()或obj = new.instan
C语言中--是什么意思？
-&gt是一个整体，它是用于指向结构体、C++中的class等含有子数据的指针用来取子数据。换种说法，如果我们在C语言中定义了一个结构体，然后申明一个指针指向这个结构体，那么我们要用指针取出结构体中的数据，就要用到“-&gt
ruby头盔为什么这么贵
成本很高。RUBY的用料颇具法式奢华风格，它的内衬为小羊皮所制，成本很高，因此在重量与舒适度上极具优势。Ruby设计风格是建立在复古传承经典设计的基础上，融合现代制造工业材料所营造出的摩登感，追求工艺、材料和美感的极致，每一个细节呈现出其精
ruby头盔哪里生产的
ruby头盔是厦门生产的。头盔是保护头部的装具,是军人训练、作战时戴的帽子,是人们交通中不可或缺的工具。它多呈半圆形,主要由外壳、衬里和悬挂装置三部分组成。外壳分别用特种钢，玻璃钢，增强塑料，皮革，尼龙等材料制作，以抵御弹头。保护头不受到
go语言适合做什么
go语言适用的领域有：Go语言主要用作服务器端开发，其定位是用来开发“大型软件”的，适合于很多程序员一起开发大型软件，并且开发周期长，支持云计算的网络服务。Go语言作为服务器编程语言，很适合处理日志、数据打包、虚拟机处理、文件系统、分布
ruby头盔哪里生产的
ruby头盔是厦门生产的。头盔是保护头部的装具,是军人训练、作战时戴的帽子,是人们交通中不可或缺的工具。它多呈半圆形,主要由外壳、衬里和悬挂装置三部分组成。外壳分别用特种钢，玻璃钢，增强塑料，皮革，尼龙等材料制作，以抵御弹头。保护头不受到
基于R语言绘制Network几种方式
q1, 首先要确定是barplot还是hist，如果是barplot的话，应该不存在breaks的问题，因为barplot的传入参数是个矩阵；我假设你要画的是个hist，我偶遇过这个问题，我的理解是hist的breaks的值要能被范围整
谁知道光明之魂2GBA金手指
中文版*金手指* VBA用代码 &lt调金钱&gt地址:0x030005ec 数值:65535(16位) &lt调P数&gt地址:0x0300047e 数值:不明(16位)(注:使用此金手指会当机，请小心使用
计算机二级C语言考试内容有那些？
C语言考试内容如下：一、C 语言程序的结构1．程序的构成，main 函数和其他函数。2．头文件，数据说明，函数的开始和结束标志以及程序中的注释。3．源程序的书写格式。4． C 语言的风格。二、数据类型及其运算1．C 的数
c语言如何查找字符串？
C语言中的标准函数库中的strchr（）函数可以实现查找字符串中的某个字符。C语言strchr()函数：查找某字符在字符串中首次出现的位置头文件：#include &ltstring.h&gtstrchr() 用来查
c语言如何输入平方
变量平方有如下三种常用的输入方法：1 直接输入法。这种方法是利用平方的数学定义，直接输入两个相同变量的乘法形式。比如int a = 10int a2a2 = a*a这里a2的值就是a的平方。这种方法的好处是简单明了，而且适用
安徽新华电脑的java适合初中生学吗
可以去学的，计算机学习包括硬件和软件，软件包括图文处理，P图软件，设计软件等等，结合实际选择自己喜欢去学。硬件包括电脑维修，组装，安装等，这个需要扎实的数学知识和编程知识。只要付出努力，就可以的。学技术可以考虑计算机相关的专业，因为现在人人
Go语言的应用
Go语言由Google公司开发，并于2009年开源，相比JavaPythonC等语言，Go尤其擅长并发编程，性能堪比C语言，开发效率肩比Python，被誉为“21世纪的C语言”。Go语言在云计算、大数据、微服务、高并发领域应用应用非常广

推荐阅读

热门文章

最新发布

标签列表

请教下如何使用java做实时网页数据采集？

给您推荐相同类型的内容：