python爬虫出现菱形问号乱码的解决方法

2023-02-14 13:26:02Python024

python爬虫出现菱形问号乱码的解决方法,第1张

在windows下使用非idle的其他ide编辑器，会碰到这个问题。对抓取到的网页内容进行先解码再编码即可。

以requests为例：

r = r.content.decode('gbk').encode('utf-8')

出现编码问题时，

1.仔细分析错误的类型。

看是decode（解码）错误还是encode（转码）错误。

2.搞清自己处理的字符串是什么类型的。

一般看网页的charset，一般为gbk，gb2312或gb18030.其中包含字符的大小为gb2312 <gbk <gb18030。一般出现‘gbk’ codec can’t decode，是因为

（1）要处理的字符串本身不是gbk编码，但是你却以gbk编码去解码

比如，字符串本身是utf-8的，但是你却用gbk去解码utf-8的字符串，所以结果不用说，则必然出错。

（2）处理的字符的确是gbk的，但是其中夹杂的部分特殊字符，是gbk编码中所没有的

如果有些特殊字符是GB18030中有的，但是是gbk中没有的。

则用gbk去解码，去所不支持的字符，也比如会出错。

所以，此种情况，可以尝试用和当前编码（gbk）所兼容的但所包含字符更多的编码（gb18030）去解码，或许就可以了。

3.然后换用这种的字符编码去编码或解码。

详情链接:https://www.crifan.com/summary_python_unicodedecode_error_possible_reasons_and_solutions/

问题指明：post请求中文，无法进行编码，需要对参数进行“utf-8”的编码

尝试：按报错进行解决：

出现问题： 返回的response的中文数据为乱码 ：

相当乱码的话，应该是编码不匹配的问题，尝试解决：

结果这乱码更加摸不着头脑了：

这个问题，一直弄了我一个晚上，太困睡觉，起床后，直到这篇解决我的问题： python 设置requests 编码，完美解决中文乱码问题：

这个请求头直接印象下面乱码：

解决分析参考：从python爬虫引发出的gzip,deflate,sdch,br压缩算法分析

就因为这个，让我弄了一晚，得到的经验是： 在测试bug的时候，尽量减少变量，能不要的，就不要 。

乱码有的字符字符串问题

# 上一篇：Python的if 条件语句

# 下一篇：python爬虫出现菱形问号乱码的解决方法

给您推荐相同类型的内容：

python多版本和虚拟环境(pyenv+conda or virtualenv)
2.7.X 3.X Anaconda2 Anaconda3 pyenv是一个管理各个python版本的管理器。可以在系统里同时保留多个python版本，等需要时定义需要的版本。项目地址看项目地址中的read
python,如两图，花括号里的内容分别表示什么意思？谢谢
题主你好,先说第一幅图, 为啥 print('{:.^10.4}'.format('Flower')) 的输出结果是 ...Flow... 简单来说就是一个字符串的格式化,对应该例子来说就是对于&
java调python
很多朋友都想知道java怎么调python？下面就一起来了解一下吧~java调python主要有两种方法：1.使用Runtime.getRuntime()执行脚本文件；2. 将python脚本写成进程为java提供服务，下面是具体的方法
如何学习Python爬虫
个人觉得：新手学习python爬取网页先用下面4个库就够了：（第4个是实在搞不定用的，当然某些特殊情况它也可能搞不定）1. 打开网页，下载文件：urllib2. 解析网页：BeautifulSoup，熟悉JQuery的可以用Pyquery3
python之禅
The Zen of Python, by Tim Peters Beautiful is better than ugly. 优美胜于丑陋 Explicit is better than implicit.明确优于隐晦
pythondef返回值为数组
#function to ask user to input name and scoredef GetInput():names=[]percentages=[]for counter in range(0,3):names.append
如何用 Python 爬取社交网络
#!usrbinenv python# -*- coding: utf-8 -*-# @Author: Administrator# @Date: 2015-10-31 15:45:27# @Last Modifi
python怎么读封装函数
封装其实分为两个层面，但无论哪种层面的封装，都要对外界提供好访问你内部隐藏内容的接口(接口可以理解为入口，有了这个入口，使用者无需且不能够直接访问到内部隐藏的细节，只能走接口，并且我们可以在接口的实现上附加更多的处理逻辑，从而严格控制使用者
Python获取url中域名及从域名中提取ip的方法
这种方法为从urlparse模块中通过urlparse方法提取url通过hostname属性获取当前url的域名。此方法是通过urllib模块中splittype方法先从url中获取到proto协议及rest结果，然后通过splith
python if else的用法是什么？
python if else的用法：if-else的语句结构是前面的条件成立执行什么操作，则下面的分支结构就不会被执行，若前面的条件不成立，否则做下面的。在 Python 中，可以使用 if else 语句对条件进行判断，然后根据不同的结
Python简单加密操作
加密是将一个明文数据，按照指定的算法，运算得到一个其他的可以隐藏真实信息的密文数据，这个过程称为加密；处理的算法称为加密算法；用到的关键数据称为密钥。解密是按照制定的算法和关键数据，将一个密文数据进行逆向运算得到的正确的明文数据的过程
Python语音合成（日文翻译）
原文：Python version ttslearn のインストール ttslearn の动作确认パッケージのインポート描画周りの设定 NumPy と Torch を用いた配列の作成 numpy.nd
Python中大小写字母转换
1. 在python中主要有四种转换方式，如下图 2. 这里我们举例说明各自的用途： #大小写转换 str3 = "Hello" str4 = "WORLD" str5 = &qu
python读取excel文件，将每一行都保存为一个列表。每一行对应一个列表。
python读写excel文件要用到两个库：xlrd和xlwt，首先下载安装这两个库。1、#读取Excelimport xlrddata = xlrd.open_workbook(excelFile)table = data.shee
python的正则表达式
1,正则表达式的一些内容正则表达式主要是用来匹配文本中需要查找的内容,例如在一片文章中找出电话号码,就中国的来说11位纯数字(不说座机),则使用"d{11}" 意味匹配数字11次,就能准
python文本内容替换？
这样编写：fa=open("A.txt","r")ta=fa.readlines()fb=open("B.txt","r")tb=fb.readlines()t
python数据标签分布是干啥的
一般是根据分析目的，将数据进行分组，研究各组别分布规律的一种分析方法。数据分组方式有两种：等距或不等距分组。分布分析在实际的数据分析实践中应用非常广泛，常见的有用户性别分布，用户年龄分布，用户消费分布等等。本文将进行如下知识点讲解：1.数据
用python开发一个物流web代码
详细如下。一个名叫“Remi”的Python库，就是用来开发WebApp的。1.Remi库简介Remi是一个用于Python应用程序的GUI库，它将应用程序的界面转换为HTML，以便在Web浏览器中呈现。严格地说，我们不能用Remi库来编写
Python中的类变量、实例变量、局部变量
类体内，所有函数外定义。所有实例对象共享。只有通过类名调用时才能修改，通过实例调用时无法修改。假设某类变量名为“name"，如果用该类的某个实例x来为name赋值：x.name = 'xxx'
python倒排索引（Inverted index）
s = raw_input()lines = s.split('n')dictlines = lines[:100]mydict = {}# read for i,line in enumerate(dictlines
python怎么监测svn库的文件有更新
python怎么监测svn库的文件有更新1、将文件checkout到本地目录svn checkout path(path是服务器上的目录)例如：svn checkout svn:192.168.1.1prodomain简写：svn
简述Python程序中语句的缩进规则？
对于类定义、函数定义、流程控制语句、异常处理语句等，行尾的冒号和下一行的缩进，表示下一个代码块的开始，而缩进的结束则表示此代码块的结束。通常情况下都是采用4个空格长度作为一个缩进量(一个Tab键就表示4个空格)。和其他程序设计语言(如Jav
python注释符号是什么？
Python中的注释有单行注释和多行注释，Python中单行注释以#符号开头，多行注释用三个单引号'''符号或者三个双引号"""符号将注释括起来。一、python单行注释符号(
Python的函数和参数
parameter 是函数定义的参数形式 argument 是函数调用时传入的参数实体。对于函数调用的传参模式，一般有两种：此外，也是关键字传参 python的函数参数定义一般来说有五种: 位置和关键字参数混
用Python判断数独是否正确
#coding=utf-8num_list=[[5, 3, 4, 6, 7, 8, 9, 1, 2],[6, 7, 2, 1, 9, 5, 3, 4, 8],[1, 9, 8, 3, 4, 2, 5, 6, 7],[8, 5, 9, 7,
Python爬虫如何写？
先检查是否有APIAPI是网站官方提供的数据接口，如果通过调用API采集数据，则相当于在网站允许的范围内采集，这样既不会有道德法律风险，也没有网站故意设置的障碍；不过调用API接口的访问则处于网站的控制中，网站可以用来收费，可以用来限制访问
如何在Hadoop环境下搭建Python？
搭建 Python 环境在 Hadoop 上的步骤如下：安装 Hadoop：在你的计算机上安装 Hadoop。安装 Python：请确保你的计算机上已经安装了 Python。配置 Hadoop 环境：编辑 Hadoop 的配置文件，以确
Python豆瓣电影《肖申克的救赎》评论爬取
先看效果图：地址：（ https:movie.douban.comsubject1292052comments?sort=time&ampstatus=P）爬取前1w条评论存储成txt文档数据预处理
python中sort是什么意思
python中sort()函数用于对原列表进行排序,如果指定参数,则使用比较函数指定的比较函数。列表有自己的sort方法，其对列表进行原址排序，既然是原址排序，那显然元组不可能拥有这种方法，因为元组是不可修改的。Python由荷兰数学和计算
Python基础之pytest参数化
pytest是目前比较成熟功能齐全的测试框架，使用率肯定也不断攀升。在实际工作中，许多测试用例都是类似的重复，一个个写最后代码会显得很冗余。这里，我们来了解一下 @pytest.mark.parametrize装饰

推荐阅读

热门文章

最新发布

标签列表

python爬虫出现菱形问号乱码的解决方法

给您推荐相同类型的内容：