java获取html

html-css013

java获取html,第1张

Java访问网络url,获取网页的html代码

方式一:

一是使用URL类的openStream()方法:

openStream()方法与制定的URL建立连接并返回InputStream类的对象,以从这一连接中读取数据;

openStream()方法只能读取网络资源。

二是使用URL类的openConnection()方法:

openConnection()方法会创建一个URLConnection类的对象,此对象在本地机和URL指定的远程节点建立一条HTTP协议的数据通道,可进行双向数据传输。类URLConnection提供了很多设置和获取连接参数的方法,最常用到的是getInputStream()和getOutputStream()方法。

openConnection()方法既能读取又能发送数据。

列如:

public static void main(String args[]) throws Exception {

try {

//输入url路径

URL url = new URL("url路径") InputStream in =url.openStream() InputStreamReader isr = new InputStreamReader(in) BufferedReader bufr = new BufferedReader(isr) String str while ((str = bufr.readLine()) != null) {System.out.println(str) }bufr.close() isr.close() in.close() } catch (Exception e) {e.printStackTrace() }}

如果懂一点Java知识就知道一共需要以下几个部分:

1.首先使用xml的一个dom解析获取到这个html后

2. 通过获取所有的<A>标签的Element

3.然后就可以根据这个Element获取到text信息了。

4.通过"java"或者空格作为分隔符使用split方法就可以区分出你的“提取出来的结果”和“百分比

”。

5.最后排序。