爬取时间:2020/11/25
系统环境:Windows 10
所用工具:Jupyter Notebook\Python 3.0
涉及的库:requests\lxml\pandas\matplotlib\numpy
蛋肥想法: 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。
蛋肥想法: print数据列表后发现电影原名、分类信息等存在不需要的字符,需预先处理;同时因为后续想做一个豆瓣电影TOP250的维度分布图,而同一电影存在多个发行国家、类型(如“法国 美国 / 剧情 动作 犯罪”),为了简(偷)便(懒),这里均取第一个作为记入的数据;最后将数据保存为xlsx。
蛋肥想法: 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据,为了练手,使用刚才保存成xlsx的数据,并分别画成雷达图、柱形图、扇形图。
豆瓣读书数据分析-python(思路来自课程老师绿树)刚刚学完python数据分析的课程,决定做一个有关python数据分析的小项目,思来想去,还是决定分析豆瓣的数据,因为豆瓣是python写成的。用python爬虫抓取数据较为方便,比一般网站少很多页面bug问题,而且豆瓣上的数据量大概在million这个量级,算是算太大的,但也不小。正好手里有一份跑出的大概300多万的数据,直接开始分析。
首先导入数据,将数据赋给一个dataframe,取名为douban
douban=pd.read_table("douban.dat",sep="::",names=["user","book","rate"])
看一下这个数据的描述
总共3648104行,其他的诸如平均数,中位数的值,是豆瓣书籍的链接后缀,并无实际意义。
然后关于豆瓣读书用户
user_count=douban.groupby('user').count()
user_count=user_count.sort('book',ascending=False)
、我们发现共有38万多读者,计数最多的一位eastwolf东狼,真的很厉害,一共写了4000多的书评。不过我们不排除这是个机器人或者公众号,因为4000度书评,就算一天看一本书,也要写11年,而豆瓣创建才不过11年。有点假,不过这个问题我们暂且不谈,仅从数据来看,第一名最爱读书的书霸,就是eastwolf了,大家鼓掌。
然后我们再来看一下书籍的信息
看一下描述
最受欢迎的书有2071个书评,平均每本书大概有45个书评。
看一下具体情况
我们挑出书评最多的10本,找到图片,就是以下这10本书
可以发现由于不同出版社不同翻译的问题,10本书实际是4本,豆瓣果然是文艺青年聚集地,《小王子》《追风筝的人》《活着》几乎就是文艺青年必备了。
豆瓣做为文艺青年聚集地,本身用户属于素质较高的群体。里面分很多小组,读书,电影,音乐,算是给大家找志同道合之友的好地方。关于读书这个方面,在大家都很爱读书的基础上,我们可以用户进行聚类分析。依靠的根据是对书籍的打分,这样来计算不同用户之间的距离。因为读的书目越相似,对同一本书打分结果越接近,说明价值观越相同,找出这样的相似者,就能给用户推荐一下潜在的‘同志’,算是给豆瓣增加一个社交功能了。
首先我们把用户信息和书本信息结合,因为考虑到大部分书籍用户之间交集为空,而且我的电脑的处理能力有限,所以截取了用户和书籍的前100进行分析,这样得到一个新的dataframe
然后我们建立邻近性矩阵
ubrcore=doubancore.pivot('user','book','rate')
即使在取前100的条件下,依然大部分是空白,为了能够计算,我们把空白处替换成0.
ubrcore1=ubrcore.fillna(value=0)
然后对要进行距离计算,由于本身对书本的打分在1到5之间,纯粹的大小差距并不大,所以我们更多的考虑在方向上的差异,所以用余弦距离来反应不同用户之间的差异性。
构建公式,并将计算结果给userdistdf这个dataframe
Userdistdf结果如下
最像用户的就是他自己,余弦距离都是1。其他人只能是部分相像,果然人生得一知己难啊。不过知己找不到,我们可以给用户找10个部分相像的‘同志’
构建函数
试一下
Bingo,成功!!!!
这样,我们可以为用户qdmimi19810920找到了10个志同道合的‘同志’了。
一个借口几万条数据但是只返回十条_爬虫实践之爬取10000条菜谱数据2020-12-03 06:37:24
weixin_39990029
码龄5年
关注
be22f93fc7bbc7cbdd62166579a1fd22.png
爬虫实践之XX行代码爬取10000菜谱数据
什么是爬虫
爬虫:又叫做 网络蜘蛛,是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。
点击这里了解Python爬虫介绍
如何合法地爬虫
有些网站不允许网络爬虫,或是对可爬取的内容做了限制,一个网站的爬虫协议可通过访问该网站的robots.txt文件获得
以豆瓣网为例
访问该网址(https://www.douban.com/robots.txt),可了解到豆瓣的爬虫协议如下
1fe03008a450885dc6da49785543e75c.png
可以看到,豆瓣对于不同的访问者有不同的访问限制,其中对于用户名为 Wandoujia Spider的访问者,豆瓣不允许访问。
我用到的菜谱网站对爬虫无限制,所以爬虫是合法的。
e4025d9f5d8b96388efa942e0255d1f9.png
本篇特色
连续爬取10000个网页
引入第三方库
import requests #发送请求
import re #正则表达式,用于提取网页数据
import winsound #提醒程序运行结束
import time #计算程序运行时间
如果没有安装这些第三方库,可以在命令提示符中输入如下代码,进行下载
pip install requests,re,winsound,time
爬虫的三个步骤
获取要爬取的所有网页的网址
提取网页内容中的有用信息
信息导出
每个步骤对应一个函数
Step_1 获取要爬取的所有网页的网址
首先我们打开该网址,查看它的源代码
0f0eb8b89c9bf17460bca4d47f017bab.png
365621d25c80f92834853350c083a545.png
网页源代码
观察发现每道菜对应的网址在这个目录下
9d729b843df3a746d70ea7af31a1d962.png
用正则表达式获得该网址,写入列表中
由于每一个网页只有十道菜,点击下一页后发现网页的变化规律为换页时网址只有数字改变
d342d8422e16c48c9600a47a45a6d1c9.png
可以看到最多有1000页,也就是有10000道菜
fb279b42fcdd3cecf7cda79ba4a8ae53.png
使用循环,将每一页的菜对应的网址都写入列表,每一次写入时写入一行列表,多次写入后,形成一个二维的列表,前两页的菜谱网址在二维列表中显示如下:
31e3755dc8b45ec6f4dac3c05f261539.png
代码如下
all_url = [] #创建一个数组用于存储网页地址
def get_all_url(n): #这个函数用于获得网页中的菜的全部网址
if(n==1):
url = "https://m.meishij.net/caixi/sucai1/"
else:
url='https://m.meishij.net/caixi/sucai1/p%s/'%n #%s相当于C语言中的%s,表示格式化一个对象为字符,同理%d表示格式化一个对象为整数
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0Win64x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36" }
response = requests.get(url,headers=headers) #访问网页
response.encoding = "utf-8" #设置接收编码格式
pattern = re.compile(r'<a target="_blank" href="([a-zA-z]+://[^s]*)">', re.S)
#正则表达式提取网页中的网址,re.S表示在整个文本中进行匹配,如果不加re.S,将只在一行进行匹配
result = pattern.findall(response.text) #获取的网页结果存储到result里
all_url.append(result[0:10])#由于每页只有十道菜,result中只有前十条对应的是菜的网址,故我们只添加前十条
return all_url #作为返回值返回这个列表
关于headers的说明
在使用python爬虫爬取数据的时候,经常会遇到一些网站的反爬虫措施,一般就是针对于headers中的User-Agent,如果没有对headers进行设置,User-Agent会声明自己是python脚本,而如果网站有反爬虫的想法的话,必然会拒绝这样的连接。而修改headers可以将自己的爬虫脚本伪装成浏览器的正常访问,来避免这一问题。 点击这里了解详情
关于编码格式utf-8 的说明
utf-8,可以编码中文,大部分python编译器都默认编码方式为utf-8 点击这里了解详情
Step_2 提取网页中的有用信息
打开一道菜的网址,查看源代码,寻找我们需要的信息在哪里,然后用正则表达式获取,流程与上个函数获取网址相同
主辅料信息在这里
c0ddfd3110775bb8b71759f6927f26d4.png
特征信息在这里(包括做法和口味)
38c99c1a51137debcafe38ae3122e19a.png
def get_info(resp,output):
name_pattern = re.compile(r'<h1>(.*)</h1>')# 正则表达式获取菜名信息
food_pattern = re.compile(r'<span class="t">(.*)</span><span class="a">(.*)</span></a></div>')# 正则表达式获得主料信息
fixing_pattern = re.compile(r'<div class="c_mtr_li"><span class="t1">(.*)</span><span class="a">(.*)</span></div>') # 正则表达式获得辅料信息
fearture1_pattern = re.compile(r'<div class="cpargs cpargs2"><div class="i"></div>(.)</div>')# 正则表达式获得特征_1
fearture2_pattern = re.compile(r'<div class="cpargs cpargs3"><div class="i"></div>(.*)</div>')# 正则表达式获得特征_2
name = name_pattern.findall(resp.text) # 提取菜名信息
food = food_pattern.findall(resp.text)# 提取主料信息
fixing = fixing_pattern.findall(resp.text)#提取辅料信息
fearture1 = fearture1_pattern.findall(resp.text) #提取特征_1
fearture2 = fearture2_pattern.findall(resp.text)#提取特征_2
output.write(str(name))#将菜名写入output文件,write函数不能写int类型的参数,所以使用str()转化
output.write('t')#进入下一个单元格
output.write(str(fearture1))#将特征_1写入output文件
output.write('t')#进入下一个单元格
output.write(str(fearture2))#将特征_2写入output文件
output.write('t')#进入下一个单元格
for i in range(len(food)):
for j in range(len(food[i])):
output.write(str(food[i][j]))#写入主料
output.write('t')
if(len(food)<11):
output.write('t'*2*(11-len(food))) #每道菜的主料数目不同,该行代码可使表格内容对齐
for i in range(len(fixing)):
for j in range(len(fixing[i])):
output.write(str(fixing[i][j]))#写入辅料
output.write('t')
output.write('n')#换行
Step_3 信息导出
def spider():
output = open('E:programingpython苏菜_2.xls','w',encoding='utf-8')#创建一个excel文件,编码格式为utf-8
output.write('名称t做法t特色t主料')#写入标题栏
output.write('t'*22)#使内容对齐
output.write('辅料n')#写入标题栏
for i in range(len(all_url)):
for j in range(len(all_url[i])):
url2=all_url[i][j]
response = requests.get(url2)#逐个访问网页,获得数据
response.encoding = "utf-8" #设置接收编码格式
get_info(response,output)#处理数据,提取信息
output.close()#关闭文件
主函数
time_start = time.time()#记录程序开始时间
for i in range(1,2):#逐页获取菜谱网页信息
get_all_url(i)
spider()#进行提取处理并导出
duration = 1000#提示音时长,1000毫秒 = 1秒
freq = 440 #提示音频率
time_end=time.time()#记录程序结束时间
print('totally cost',time_end-time_start)#打印程序运行时间
winsound.Beep(freq,duration*10) #响铃提示程序结束
经实验,爬取10000条代码需要用时3453秒左右
e8b6c8637980d2aef9587711c7084a5f.png
最后获得的数据如下
97a8662cf048844850658aef841e04c3.png
写在后面
我是一个C语言上不了80的小白,全靠某度和某歌东拼西凑我的这个程序,在代码风格与写作等方面存在不可避免地会有一些错误和不足的地方,希望大家多多与我交流,多多批评指教我。