Python爬虫实战（1）requests爬取豆瓣电影TOP250

2023-02-23 23:34:02Python025

Python爬虫实战（1）requests爬取豆瓣电影TOP250,第1张

爬取时间：2020/11/25

系统环境：Windows 10

所用工具：Jupyter Notebook\Python 3.0

涉及的库：requests\lxml\pandas\matplotlib\numpy

蛋肥想法： 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。

蛋肥想法： print数据列表后发现电影原名、分类信息等存在不需要的字符，需预先处理；同时因为后续想做一个豆瓣电影TOP250的维度分布图，而同一电影存在多个发行国家、类型（如“法国美国 / 剧情动作犯罪”），为了简（偷）便（懒），这里均取第一个作为记入的数据；最后将数据保存为xlsx。

蛋肥想法： 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据，为了练手，使用刚才保存成xlsx的数据，并分别画成雷达图、柱形图、扇形图。

闲着在家想看电影，但是猛地不知道要看啥电影，脑子想半天也想不出来一个好电影名字！干脆直接在豆瓣电影上获取最近热门的电影，然后一个一个挨着看打发时间！

获取豆瓣电影信息也是学爬虫的一个入门例子，不知道为啥好多人学爬虫都拿豆瓣电影来练手，一个应该是爬取比较简单，另一个应该是这个平台反爬措施比较low，接下来让我们来看看怎么去实现获取豆瓣电影前200个热门电影信息！

1.请求数据

第一步先打开豆瓣电影网页，分析请求看怎样才能请求到数据。

刷新豆瓣电影网页，从浏览器自带的开发工具network中XHR可以看到各种请求，其中标黄的search_subject?type_movie这个请求就是请求电影信息，下面的type_tv就是请求电视剧信息的。从右边标黄的request url中看到是请求的链接，但参数信息都被编码，用urllib.parse.unquote()方法来进行解码：

解码后的请求连接如图所示，猜想page_limt为每次请求到的数据量，page_start为从第几页开始请求，将这个链接在浏览器中打开来验证一下猜想。

看到返回的是一个json字符串，里面包含50条电影信息，其中有名字，评分，链接等，将page_start = 0 变为1，就请求到下一个50条信息。根据链接的这个规律，可以对page_start 不断赋值，从而实现多条信息的获取！（公众号 ly戏说编程）

第二步构造请求头，即看看浏览器通过这个链接向服务器发送了什么请求参数才拿到这些json数据，打开浏览器开发者工具。

按照图中1到4步可以看到这个请求的request headers，将请求头里面的信息全部拿出来，构造为爬虫的请求头。

坑：请求头构造的时候Accept-Encoding要将br去掉。原因：Accept-Encoding用来声明浏览器支持的编码类型，一般有gzip,deflate,br 等等。但在python3的requests包中：

response.content 字节方式的响应体，会自动为你解码 gzip 和 deflate 压缩类型：bytes

reponse.text 字符串方式的响应体，会自动根据响应头部的字符编码进行解码。类型：str

但偏偏不支持br的解码，如果加上br可能造成你请求回来的是乱码！所以要去掉br!

这样通过模拟浏览器请求数据，就可以得到服务器返回的json字符串，再解析json字符串得到每一个电影的详情链接。

2.提取信息

在得到每一个电影的链接后，依次访问每一个电影的链接，然后根据关键信息所在标签用xpath进行提取。这里只对电影名字、年份、导演、类型、评分进行提取。

例如提取1917，在网页右击“1917”,然后选择检查，在Elements中1917所在位置右击，选择Copy，然后Copy XPath即可拿到1917的Xpath路径，其它信息的提取操作步骤一样。