Python爬虫实战（1）requests爬取豆瓣电影TOP250

2023-02-12 20:38:01Python063

Python爬虫实战（1）requests爬取豆瓣电影TOP250,第1张

爬取时间：2020/11/25

系统环境：Windows 10

所用工具：Jupyter Notebook\Python 3.0

涉及的库：requests\lxml\pandas\matplotlib\numpy

蛋肥想法： 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。

蛋肥想法： print数据列表后发现电影原名、分类信息等存在不需要的字符，需预先处理；同时因为后续想做一个豆瓣电影TOP250的维度分布图，而同一电影存在多个发行国家、类型（如“法国美国 / 剧情动作犯罪”），为了简（偷）便（懒），这里均取第一个作为记入的数据；最后将数据保存为xlsx。

蛋肥想法： 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据，为了练手，使用刚才保存成xlsx的数据，并分别画成雷达图、柱形图、扇形图。

先看效果图：

地址：（ https://movie.douban.com/subject/1292052/comments?sort=time&status=P）

爬取前1w条评论

存储成txt文档

数据预处理

中文分词

统计top10的高频词

可视化展示高频词

根据词频生成词云

审核评论

================================================================

配置准备

中文分词需要jieba

词云绘制需要wordcloud

可视化展示中需要的中文字体

网上公开资源中找一个中文停用词表

根据分词结果自己制作新增词表

准备一张词云背景图（附加项，不做要求）

paddlehub配置

#安装jieba分词和词云

pip install jieba

pip install wordcloud

#安装paddle

pip install --upgrade PaddlePaddle

#安装模型

#hub install porn_detection_lstm==1.1.0

pip install --upgrade paddlehub

pip install numpy

#安装Beautifulsoup

pip install BeautifulSoup4

Github地址： https://github.com/mikite/python_sp_shawshank

有可能遇到的问题：

1.UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 1: invalid continuation byte

解决方法：

1.不使用urlLib换做requests

2.去掉请求头中的 'Accept-Encoding': 'gzip, deflate, br'

3.返回值reponse 转字符串指定编码utf-8

# 'Accept-Encoding': 'gzip, deflate, br',

2.关于cookie

解决方法：

1.去豆瓣请求头中复制cookie设置到请求头中

'Cookie': 'bid=WD6_t6hVqgM'

3.请求返回418的问题

解决方案模拟设置请求头，设置user-agent

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',

4.使用beautifulsoup获取不到评论

解决方法：

第一步：指定解析参数为'lxml'

soupComment = BeautifulSoup(html, 'lxml')

第二步：

findAll方法指定css文件的class名

print('网页内容：', soupComment.prettify())

comments = soupComment.findAll(class_='short')

点击获取源码

分词数据豆瓣电影词表

# 上一篇：哪里有c语言交流群啊

# 下一篇：gamma分布的均值和方差计算公式是怎样的？

给您推荐相同类型的内容：

Go语言是做什么的
应用于搭建 Web 服务器，存储集群或类似用途的巨型中央服务器的系统编程语言。Go 是谷歌的编程语言，而不是社区的。在这位博主看来，虽然 Go 语言拥有一个贡献者社区，但是它并不是社区的项目，只是谷歌的一个项目。所以只要是谷歌反对的东西，
如何用R语言进行相关系数与多变量的meta分析
本文第一大部分将介绍用R软件的meta分析数据包实现相关系数的Meta分析，第二大部分如何用R语言进行多变量的meta分析。想获取R语言相关系数meta分析的程序模板的同学请在公众号（全哥的学习生涯）内回复“相关系数”即可。 me
Ruby on Rails开发效率高，到底是因为Ruby语言还是Rails框架
ROR开发效率高与二者都有关系的，不过如果说哪个占的更多一些，应该是Rails框架了，原因如下：ruby就其语法而言，语法灵活，提供的类库和方法也非常丰富，所以与其它语言相比，同样的功能，ruby的代码量更少。这也是网上经常出现如“ruby
初音家族都有谁
常见的基本是：巡音LUKA、大哥KAITO、大姐MEIKO、镜音铃、镜音连、初音未来、神威茄子、GUMI这几位~其实VOCALOID的虚拟歌姬都算是V家，也不会说什么初音家族这种，具体未来魔书有说的＝＝人物＝＝日野香穗子（声优：高木礼子）普
只学C语言能做网站吗？
C语言可以做网站。但是那不是一般的痛苦和纠结。C语言是一种编程语言，可以做许多事情。网站是一个可以供人浏览的服务器，所呈现的内容无非也是各种字符串，字节码。从编程的角度讲，C语言是可以实现这一切的。目前常用的几种用来网站建设程序语言有as
疯狂java讲义学完什么水平
疯狂java讲义学完中等水平。疯狂java讲义是国人原创必读经典了，同样非常适合初学者。讲解内容细致全面，系统通俗，目录划分和查找非常方便，就算完全没有基础也可以学的没有什么压力，学完可以升级一个水平，达到中等水平。《Head First
Java都需要那些技术？
Java工程师需要学习的技术还是比较多的。尤其是现在技术更新迭代比较快，需要不断学习掌握新的技术，给自身镀金才能在IT行业发展的较好。下面列举出来一些需要掌握的技术：1、理解Java面向对象思想2、掌握开发中常用基础API3、熟练使
Java工程师一般月薪是多少？
想知道Java就业薪资怎么样？用真实的数据告诉你。根据职友集数据显示，Java一个月多少钱？平均工资￥16.6K，其中拿 10K-15K 工资的占比最多，达 24.6%。以北京为例，对JAVA工程师岗位的平均工资、不同工作年限的收入水平进
ruby可以做什么?
Ruby，一种为简单快捷的面向对象编程（面向对象程序设计）而创的脚本语言.作用：Ruby 是开源的，在Web 上免费提供，但需要一个许可证。Ruby 是一种通用的、解释的编程语言。Ruby 是一种真正的面向对象编程语言。Ruby 是一种类似
目前最全的R语言-图片的组合与拼接
https:www.rdocumentation.orgpackagescustomLayoutversions0.2.0 https:mp.weixin.qq.comszbp8pOQcNB4XBBF5SCg5GA
R语言中，你最常用的软件包有哪些，请简述功能及特点？
作者：任坤链接：http:www.zhihu.comquestion21792740answer27104765来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。reshape2 横向、纵向做数据变换
golang err是字符串类型的吗
不是，是error类型。Golang中的error类型error类型本身就是一个预定义好的接口，里面定义了一个methodtype error interface {Error() string}本文主要介绍了Go语言中文件读写的相关操作。
python怎么运行
python怎么运行？用cmd运行python程序推荐：《Python教程》步骤：（1）打开cmd。（2）转到你要运行的文件所在的盘(例如：E盘）。输入： e: 回车（3）打开你要运行的文件所在的文件夹（例如：E:ABC123）。输入：cd
如何在Mac OS X上安装 Ruby运行环境
1.安装XcodeXcode(请等待漫长的下载)乖乖的去app store下载Xcode(不建议去别地儿下载)，这步主要安装unix环境需要的开发包。2.安装RVM打开你的终端，位置如下看到红色箭头指的东东就已经晕倒的请自行洗洗睡吧！没晕倒
python3 16进制字符串、列表、字符串之间的转换
在Python操作数据内容时，多数情况下可能遇到下面3种类型的数据处理：hexstring如：'1C532145697A8B6F'str如：'x1Cx53x21x45x69
蓝桥杯python3不会用怎么办
蓝桥杯python3不会用可以按照如下方法操作：1、要求python3，且用python自带的编辑器。2、练习中建议都用IDLE，IDLE的用法，打开之后ctrl加n新建python文件，然后就可以书写代码。传送门除法有 “”
如何升级Harmony OS？
首先，您需要了解升级Harmony OS前的准备工作：1.升级前，请确保设备没有被Root，并预留10G以上的内部存储空间。2.进入华为应用市场，搜索我的华为，将我的华为应用更新到最新版本。请提前备份好数据（第三方通讯类应用需单独备份），
WebView 的反思和记录 ---定制设置和常见问题
一些基本的内容就不提及了，下面主要记录在开发中尤其需要注意的内容要完成一定的自定义功能的webview，肯定就需要涉及到以下几个内容，WebSetting, WebViewClient, WebChromeC
c语言用什么软件编写？
学c语言可以用的软件推荐如下：1、TurboC是由美国Borland公司开发的一套C语言程序开发工具，Borland公司是一家专门从事软件开发、研制的大公司。该公司相继推出了一套Turbo系列软件，如TurboBASIC、TurboPasc
r语言计算均方误差怎么判断
1、RMSE（均方根误差）即标准误差：假如数据在A1：Z1标准方差用函数=STDEV（A1:Z1）方差用函数=VARA（A1:Z1）2、MRE（平均相对误差）Excel函数统计STDEV（Sd）计算出标准偏差Sd值，然后除以平均数再×
python 的时间怎么对比
在Python编程中，使用datetime模块计算两个时间的差：12345678&gt&gt&gtimport datetime&gt&gt&gtd1=datetime.datetime(20
python移除注释方法
批量去除指定源文件夹中的py文件的注释，并生成拷贝与指定目的文件夹#!usrbinpython # -*- coding: GBK -*- #writer:xmnathan #py文件去注释 import re import
马士兵java视频怎么样
马士兵java视频这套视频挺不错的，可以到IT学习联盟下载。但是这套教程只是基础。要学会真正到java就要一套完整到java视频教程。完整的java教程可以看看IT学习联盟的&lt&lt零基础Java就业班&gt&a
韩国五人女团有哪些
真的有很多！我打出来的都是现役的，起始成员5名后来增加的和本来是5名成员后来有退出的我都没写。比如Kara、Girl'sDay都有成员退出、F-veDolls(5dolls)有成员加入等，这些组合现在都不是5名的。另外，Secre
golang图片处理水印去除
1.平铺水印图像一般来说,水印图会比要加载的图片要小很多,所以我们采用的方式一般是把水印图片平铺在现有图像上。将水印图片铺满整个屏幕,每个水印之间保留一些像素点。具体思路为 1.获取原图尺寸2.获取水印图尺寸3.遍历原图尺寸,给出第一
Go语言为什么火不起来？
目前大部分产品都用c或者c++或者其它主流语言编写的，go产品还是很少go语言工程师少有编程基础的人学go语言很简单，但是对于新手来说太难，现在大多go语言教材都是给会编程语言的人学习，比如教材中说变量、对象、函数。新手能理解这些？
考研c语言用什么刷题
考研c语言用轻题库刷题。根据查询相关资料信息，小程序名称是轻题库刷题，轻题库是一款教育类小程序，轻题库是款针对自考和升本的学习教育应用，在这里，有海量题型等来刷，针对于各大专业的领域，满足考生刷题的需求，还能定制学习计划。这题的正确答案不是
java中的数据类型
java中的数据类型分两大类分别是基本类型和引用数据类型。一、基本类型1)Java中的数据类型有八种，即基本类型。具体如下：数据类型位数取值范围：Boolean1True|FalseByte8-128~127Short16-32
介绍一下德国植物学家萨克斯
萨克斯1832年10月2日生于布雷斯劳(现波兰弗罗茨瓦夫)，1897年5月29日卒于维尔茨堡。少年时聪慧过人，爱采集植物标本，自己分类制图。青年时曾在布拉格大学任生理学家J.E.普尔基涅的助手，自己读书和研究，1856年获哲学博士学位，18
c语言中char的用法是什么意思
C语言是计算机软件领域非常经典的编程语言，C语言中char的作用有哪些你了解吗。下面我就跟你们详细介绍下c语言中char的用法，希望对你们有用。c语言中char的用法：c语言中char的用法简介字符型(char)用于储存字符(char

推荐阅读

热门文章

最新发布

标签列表

Python爬虫实战（1）requests爬取豆瓣电影TOP250

给您推荐相同类型的内容：