python爬虫出现菱形问号乱码的解决方法

2023-02-25 14:18:01Python015

python爬虫出现菱形问号乱码的解决方法,第1张

在windows下使用非idle的其他ide编辑器，会碰到这个问题。对抓取到的网页内容进行先解码再编码即可。

以requests为例：

r = r.content.decode('gbk').encode('utf-8')

出现编码问题时，

1.仔细分析错误的类型。

看是decode（解码）错误还是encode（转码）错误。

2.搞清自己处理的字符串是什么类型的。

一般看网页的charset，一般为gbk，gb2312或gb18030.其中包含字符的大小为gb2312 <gbk <gb18030。一般出现‘gbk’ codec can’t decode，是因为

（1）要处理的字符串本身不是gbk编码，但是你却以gbk编码去解码

比如，字符串本身是utf-8的，但是你却用gbk去解码utf-8的字符串，所以结果不用说，则必然出错。

（2）处理的字符的确是gbk的，但是其中夹杂的部分特殊字符，是gbk编码中所没有的

如果有些特殊字符是GB18030中有的，但是是gbk中没有的。

则用gbk去解码，去所不支持的字符，也比如会出错。

所以，此种情况，可以尝试用和当前编码（gbk）所兼容的但所包含字符更多的编码（gb18030）去解码，或许就可以了。

3.然后换用这种的字符编码去编码或解码。

详情链接:https://www.crifan.com/summary_python_unicodedecode_error_possible_reasons_and_solutions/

Python在执行过程中，常常出现不能读取中文路径名，表现为读取的路径是空或者直接报错（WindowsError: [Error 2]）；也有时候出现不能正常输出中文字符串，编译器报错为（KeyError），这是编码出现了问题。这个时候在字符串后面添加转码操作即可。

详见源码示例如下

【中文字符串】

[python] view plain copy

print '品牌id'.decode('utf-8')

print '\xe5\x93\x81\xe7\x89\x8cid'.decode('utf-8')

上面两行输出结果是一致的。

【中文路径读取文件】

[python] view plain copy

# 获取当前路径下的文件夹

import numpy as np

from os.path import exists, isdir, basename, join, splitext

from glob import glob

data_path = 'F:\\wfpdm\\My_Proc_Data_ZXTZ\\美国数据库\\ 自相\

关特征\\'.decode('utf-8')

cat_paths = glob(data_path + "*")

cat_paths.sort()

cats = [basename(cat_path) for cat_path in cat_paths]

字符串有的字符中文路径

# 上一篇：「测试开发全栈化-Go」(1) Go语言基本了解

# 下一篇：烟台科技学院地址

给您推荐相同类型的内容：

口袋妖怪叶绿的金手指代码有什么？怎么用？(好的话追加10分)
口袋妖怪火叶金手指使用教程http:www.koudai8.comindexArticleyxmj200702427.html首先，如果你的模拟器是中文版的，打开金手指，进入”gameshark"，就是下面那八个按钮
关于Ruby
Ruby on Rails是一个用于编写网络应用程序的框架，它基于计算机软件语言Ruby，给程序开发人员提供强大的框架支持。Ruby on Rails包括两部分内容：Ruby语言和Rails框架。什么是Ruby?Ruby 语言是一种动态语言
红宝石的蛋糕可以吃吗
红宝石RUBY的鲜奶小方啊~~~~~~~小时候就很喜欢吃的说，不甜不腻，很爽滑，造型很简单，上面一颗樱桃，不过中间的碎菠萝味道不怎么样，跳过它，红宝石的蛋糕是我在上海滩上喜欢的鲜奶蛋糕里屈指可数的几家之一！推荐一些口感甘甜又有一定红酒味感的
excel可以用ruby操纵吗
首先想些数据excel文件简单办应该考虑CSV Ruby支持比较且用excel直接打前提excel没特别复杂表结构式渲染等例： Ruby代码 outfile = File.open('csvout', 'wb
R语言没有car的程序包，怎么办？
两个办法：1. 安装‘minqa’包，在R的命令行界面打入“install.packages(‘minqa’)”.2. 如果上面方法不行，卸载‘car’，并且重新安装。有可能早先安装这个包的方法不对。或者可以选择重新下载R语言软件包下载
go gc gccgo gcc GNU 之间的关系
gc 与gccgo 都是go语言标准规范的不同实现，两者包含不同的侧重点：使用成本上gccgo远比gc更高，基于如下原因：总结：除非真要追求高性能，否则不建议去折腾gccgo 如果一定要折腾，建议思路：基于gcc docke
java培训靠谱吗？
java培训靠谱。【点击测试我适不适合学设计】Java是目前世界上最流行的计算机编程语言，是一种可以编写跨平台应用软件的面向对象的程序设计语言。这可以概括JAVA有着自己独特的优势：语言简单、是一个面向对象、分布式应用并且安全、体系结构
学c语言还是python
从难易程度来说，可以先学python。C语言是一门通用计算机编程语言，是面向过程的语言，其语法结构及其严谨，且应用十分广泛。而且只要将C语言研究透彻了的话，学习其他语言就会轻松很多，但又因C语言庞大的功能性，入门程序相对来说比较复杂，很难
如何利用c语言打开文本文件？
C程序语言非常强大，通过打开文本的函数（里面的参数指出要打开文本的位置及文件名），即可打开相应的文本。第一，包含的头文件：#include &ltstdio.h&gt，这是一个输入输出函数，第二，打开文本文件：FILE *
R语言基本数据分析
R语言基本数据分析本文基于R语言进行基本数据统计分析，包括基本作图，线性拟合，逻辑回归，bootstrap采样和Anova方差分析的实现及应用。不多说，直接上代码，代码中有注释。1. 基本作图（盒图，qq图）#basic plotboxpl
烟台科技学院地址
烟台科技学院地址：山东省烟台市蓬莱区仙境西路34号烟台科技学院是一所以工学、管理学、艺术学为主，多学科协调发展的全日制普通本科高校，具有颁发国家承认的统招本、专科学历资格，并具有学士学位授予权。学校前身是创建于2005年的济南大学泉城学院，
C语言编写学生信息管理系统，不要报错的......
可以输入输出查找排序学生的成绩#include&ltstdio.h&gt#include&ltstdlib.h&gt#include&ltstring.h&gt#defineN50struct
C语言中的与或非运算
C语言中的与、或、非是C语言的逻辑运算符。1、逻辑与在C语言中逻辑与用&amp&amp表示。举例：a&amp&ampb（其中a、b都代表一个条件）如果a和b都为真，则结果为真，如果a和b中有一个条件为
游程检验的游程检验方法
1、检验总体分布是否相同将从两个总体中独立抽取的两个样本的观察值混合后，观察游程个数，进行比较。2、检验样本的随机性将取自某一总体的样本的观察值按从小到大顺序排列，找出中位数（或平均数），分为大于中位数的小于中位数的两个部分。用上下交错形成
pokemongo怎么设置中文语言设置方法
1、首先，我们选择标题栏中的file，进入到菜单选项。2、接下来我们在菜单选项中，选择左侧的Set，也就是设置界面。3、在默认的设置界面中，我们会看到下方有一个Language,这就是我们要找的语言设置。4、软件的语言默认设置为英文。5、选
c语言优先级是什么?
C语言中运算符优先级排序如下：分为优先级15级：1、圆括号【（）】、下标运算符【[]】、分量运算符的指向结构体成员运算符【-&gt】、结构体成员运算符【.】；2、逻辑非运算符【!】、按位取反运算符【~】、自增自减运算符【++】
Golang databasesql源码分析
Gorm是Go语言开发用的比较多的一个ORM。它的功能比较全：但是这篇文章中并不会直接看Gorm的源码，我们会先从databasesql分析。原因是Gorm也是基于这个包来封装的一些功能。所以只有先了解了databasesql
R语言绘制限制性立方样条（Restricted cubic spline，RCS）
在医学研究中，我们经常构建回归模型来分析自变量和因变量之间的关系。事实上，大多数的回归模型有一个重要的假设就是自变量和因变量呈线性关联，这个条件实际很难满足。常见的解决方法是将连续变量分类，但类别数目和节点位置的选择往往带有主观性，并且分
C语言运算符优先级顺序
C语言运算符优先级顺序如下所示：自增运算符 ++ 和自减运算符 --，在作后缀运算符（如表达式 x++）时，较其用作前缀运算符（如表达式 ++x）时，具有较高的优先级。+、-、* 和 &amp运算符记号不但可以当作一元运算符（una
怎么用R语言话高,中低风险曲线图
1.计算两种资产的投资组合我们需要知道每种资产的期望和标准差。2.然后根据两种资产所占的权重去计算组合的期望和标准差。3.在R中先把需要的参数μ，σ，ρ写入mu&lt-c(10,15)sigma&lt-c(16,24)rho
如何在eclipse中引入rdt插件
分别安装JDK、eclipse（解压即可用）、RDT（解压即可），复制org.rubypeople.rdt下的两个文件夹features、plugins中的内容，分别全部放到eclipse根目录下的对应文件夹中，就可以完成Ruby插件的安装
如何在PYTHON 中写一个函数交换两个变量的值
python交换两个变量的值很简单，a,b = b,a 就可以，写成函数，代码如下：def jh(a,b): return b,ax = 1y = 2x,y = jh(x,y)print(x,y)执行结果如下：def test(
Java程序员一般工资多少
这个要看具体岗位，还有城市的。一般的JAVA工程师如果是做web开发的，不同城市差异非常大，一线城市可以到15k以上，但是在三线城市这个岗位，一般只有5到6k。如果是其他的，JAVA岗位，比如做系统架构，做大数据开发，那么薪资也是15k以上
微信公众号怎样开发
1.回到首页，在菜单顶部选择控制台，再选择“云应用SAE”。iknow-pic.cdn.bcebos.com6159252dd42a2834b686c60a57b5c9ea15cebf8b"target="_bla
go语言 ioutil.ReadFile 与ioutil.ReadAll差别
当读取91.2 MB文件时，read1耗时43ms，read2耗时99ms。查看源码：读取文件主要是通过 Read(p []byte) (n int, err error) ：官方文档中关于该接口方法的说明：
java里怎么向一个空数组添加元素
定义一个数组x0dx0aString[] s = new String[3]x0dx0a赋值x0dx0as[0] = "1"x0dx0as[1] = "asfa"x0dx0as[2
go程序如何分配堆栈的
在Go语言中有一些调试技巧能帮助我们快速找到问题，有时候你想尽可能多的记录异常但仍觉得不够，搞清楚堆栈的意义有助于定位Bug或者记录更完整的信息。本文将讨论堆栈跟踪信息以及如何在堆栈中识别函数所传递的参数。Functions先从这段代码开始
python的代码文档字符串使用什么包裹
python的代码文档字符串使用什么包裹简单地理解，字符串就是“一串字符”，也就是用引号内的任何数据，比如“Hello,Charlie”是一个字符串，“How are you？”也是一个字符串。Python 要求，字符串必须使用引号括起来，
Go语言编程入门时需要注意什么
刚入门Go语言小白需要注意以下五点：1、注意书写代码的一些规范吧，特别是注意大小写、英文标点符号区别等，在特别的位置写上注释。2、主要是理解伪代码所描述的算法，伪代码要注意是不能直接运行的。3、注意编译器版本与书籍上所介绍版本是否一致，也注
python 在二维列表中查找出包含指定值的子列表
如果 list 存储了若干复杂结构的值，比如这样的一个列表：temp = [('a', 1, 1.5),('b', 2, 5.1),('c', 9, 4.3)]你想找到其中是 (&

推荐阅读

热门文章

最新发布

标签列表

python爬虫出现菱形问号乱码的解决方法

给您推荐相同类型的内容：