步骤:
一、使用java.net包下的URL类,可以将一个网页(链接)封装成一个URL对象。
二、URL对象有一个openStream()方法,使用该方法可以获取该网页的输入流,我们可以通过读取输入流的方式获得网页的内容,并通过输出流写入HTML文件中。
补充:
步骤:
1.通过URL对象的openStream()方法获得网页的字节输入流 。
2.为字节输入流加缓冲 。
3. 创建字节输出流对象 。
4. 为字节输出流加缓冲 。
5. 读取数据,并写入HTML文件 。
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包。1 Pyhton获取网页的内容(也就是源代码)
page = urllib2.urlopen(url)
contents = page.read()
#获得了整个网页的内容也就是源代码 print(contents)
url代表网址,contents代表网址所对应的源代码,urllib2是需要用到的包,以上三句代码就能获得网页的整个源代码
2 获取网页中想要的内容(先要获得网页源代码,再分析网页源代码,找所对应的标签,然后提取出标签中的内容)
1、浏览器打开网页,右键-》查看源代码
然后Ctrl+S保存下来
2、打开要保存的网页,直接Ctrl+S,选择“仅HTML”
以上两种方法,选择其一即可。