python2
爬虫:从网页上采取数据
爬虫模块:urllib,urllib2,re,bs4,requests,scrapy,xlml
1.urllib
2.request
3.bs4
4.正则re
5种数据类型
(1)数字Number
(2)字符串String
(3)列表List[] 中文在可迭代对象就是unicode对象
(4)元组Tuple()
(5)字典Set{}
爬虫思路:
1.静态 urlopen打开网页------获取源码read
2.requests(模块) get/post请求----获取源码 text()方法 content()方法(建议)
3.bs4 能够解析HTML和XML
-- coding:utf-8 –
from bs4 import BeautifulSoup
1
html=“
2018.1.8 14:03
”
soup=BeautifulSoup(html,‘html.parser’) #解析网页
print soup.div
2从文件中读取
html=’’
soup=BeautifulSoup(open(‘index.html’),‘html.parser’)
print soup.prettify()
4.获取所需信息
一,先举个例子:比如你要处理的url链接二,说你为什么要处理中文,是因为url有中文requests请求不到数据还是其他原因,
你应该打开该网站,f12开发工具看请求的链接是什么形式
三,url里的中文要转化换成什么,是MD5Z值(8a91ee17510f2b7401510f60a67f039c
),还是中文转码为%E5%A5这种
四,事情说清楚,想干什么,得到什么结果,怎么解决
答: 是这样的,Python并不是爬虫,它的英文单词本意呢就是蟒蛇,后来呢,有科学家研究了一种计算机语言,并把它命名为Python。所以有时候你仔细去看Python的图标,它就是一个盘着的蟒蛇。然后Python有一个很重要的用途就是爬虫。除了用于爬虫之外呢,它也可以用于数据分析,网站制作,桌面应用制作等等。所以我们不能将Python和爬虫等同。希望可以帮助到你。