python抓取网页内容时出错，UnicodeEncodeError: 'gbk' codec can't encode character 'ue4bf.....

2023-02-26 19:26:01Python09

python抓取网页内容时出错，UnicodeEncodeError: 'gbk' codec can't encode character 'ue4bf.....,第1张

问题是这样的,网页的数据应该是'utf-8'编码,这个可以在网页的head上面看得到,然后你爬网页的时候会把它转化成Unicode,出问题的是在print()这儿,对于print()这个函数,他需要把内容转化为'gbk'编码才能显示出来. 然后解决办法是这样,你在转化后的Unicode编码的string后面,加上 .encode('GBK','ignore').decode('GBk') 也就是先用gbk编码,忽略掉非法字符,然后再译码,是不是很有道理应该是这样的,因为我和你遇到同样的问题,现在解决了

网页编码格式有很多，比如UTF-8，GBK2312等，在网址页面F12键，ctrl+f搜索charset可看到该网页使用的编码格式，如CSDN为charset=”utf-8”。我们使用python获取网页内容时，经常会由于网页编码问题导致程序崩溃报错或获取到一堆二进制内容，软件的兼容性很差。有一个办法，可以通过第三方库chardet获取编码格式，再使用该编码格式解码数据可实现兼容。

1、安装chardet库

chardet是第三方库，需要先安装再使用。简单的办法是启动DOS界面，进入python安装路径下Scripts路径中（其中有pip脚本），运行”pip install chardet”，即可完成安装（可能需要先更新pip，根据提示运行命令即可）；

2、导入charset、建立函数

python工程中导入charset库（”import chardet”）建立函数如下：

def get_url_context(url):

content = urllib.request.urlopen(url) #获取网页内容

encode = chardet.detect(content) #获取网页编码格式字典信息，字典encode中键encoding的值为编码格式

return content.decode(encode['encoding'], 'ignore') #根据获取到的编码格式进行解码，并忽略不能识别的编码信息

以上函数的返回值即为网页解码后的内容，无论网页是哪种格式编码，都能轻松识别转换；需要注意的是解码时要加参数’ignore’,否则网页中可能会有混合编码导致程序出错。

网页格式内容是这样函数

# 上一篇：如何用JAVA语言编写计算器小程序？

# 下一篇：六星教育：Python和go语言都很火，我要怎么选？

给您推荐相同类型的内容：

java中的？判断
1.三目运算格式：(关系表达式结果是布尔值) ？表达式1 ：表达式21如果前面的关系成立，则返回表达式1的值。否则，返回表达式2的值。int a = 20int b = 40返回两者中较大的数：int max = (a&
java中“this”的用法是什么
使用this调用本类中的属性x0dx0ax0dx0a现在观察以下代码，看会有那些问题：x0dx0ax0dx0apublic void setName(String name){x0dx0ax0dx0aname = n
六星教育：Python和go语言都很火，我要怎么选？
python和go语言有区别：1、Python语法使用缩进来指示代码块；Go语法基于打开和关闭括号；2、Python是基于面向对象编程的多范式语言；Go是基于并发编程范式的过程编程语言。3、Python是动态类型语言，Go是静态类型语言
python：PIL图像处理
PIL (Python Imaging Library) Python图像处理库，该库支持多种文件格式，提供强大的图像处理功能。 PIL中最重要的类是Image类，该类在Image模块中定义。从文件加载图像：如果成功，这
C语言中不等于0的表达有哪些啊？
intaif(a){...}当a不等于0时，执行括号里面的程序段if(a!=0){...}当a不等于0时，执行括号里面的程序段c语言中0与1以及0与非零没有区别C中逻辑运算的结果只有两种：真与假，假用数值表示为0，非0表示为真，一般
golang base64 斜杠等号问题
写一个接口认证的时候，密码需要通过SHA1+HMAC加密以后转base64，发现加密的结果不符合预期 shell里面通过命令生成的字符串 golang生产的结果有差别具体的说，shell 生产的base64传里面有'&
go语言能做什么关于go语言的介绍
1、Go作为Google2009年推出的语言，其被设计成一门应用于搭载 Web 服务器，存储集群或类似用途的巨型中央服务器的系统编程语言。2、对于高性能分布式系统领域而言，Go 语言无疑比大多数其它语言有着更高的开发效率。它提供了海量并
python就业方向
python就业方向：python开发工程师、人工智能工程师、大数据分析工程师、爬虫开发工程师、搜索引擎工程师、游戏开发工程师、系统运维工程师。Python在系统运维上的优势在与其强大的开发多能力和完整的工业链，它的开发能力远强于各种She
帅气的英文网名
寻找一个帅气的英文名字Albert艾伯特 Alfred阿尔弗雷德 Brandon布兰登 Brant布兰特 Brent布伦特 Brian布莱恩 Bruce布鲁斯 Carl卡尔 Cary凯里 Caspar卡斯
电脑语言栏出现CH怎么办
【问题描述】:出现了两个语言栏【原因分析】：语言栏有其他语言【简易步骤】：屏幕右下角语言栏（小键盘图标）—右键—【设置】—除中文（中国）其他语言删除—【确定】。【解决方案】:3.点击屏幕右下角语言栏（小键盘图标）—右键选择【设置】。（如图1
在中国，做一个 Ruby 程序员是一种怎样的体验？
作为一个妹子，同时还是程序员，对这个问题非常感兴趣，那么写Ruby是一种什么样的体验?简的CTO LarryZhao曾经总结了两个字，对我而言两个字——爽，快。一些看法Rubyist在中国的Ruby中国社区正在聚集。由于人数少，大家都很团
java中this的用法
java中this有两种用法：1、代表当前类public class Dog{ private String name private float age public setName(String name){ this.name =
python编程中实现linkedlist(链表）报错是因为什么，怎么解决？
楼主你好！看你的代码存在很多问题，一个个来说明1）首先你代码的报错源于你想用list来展开你的SLinkedList类，在python中，除非内置的可迭代对象外，其他都需要实现__iter__()函数，才能用list来进行展开。注意：判
R图片输出到office
在之前学习的时候，老师有推荐"export"这个神器可以将图片直接导出至ppt，但是发现3.6及4.0版本的R语言仍然无法使用export。因此，切换至另外一个叫"eoffice"的packag
go语言中实现切片(slice)的三种方式
定义一个切片，然后让切片去引用一个已经创建好的数组。基本语法如下：索引1：切片引用的起始元素位索引2：切片只引用该元素位之前的元素例程如下：在该方法中，我们未指定容量cap，这里的值为5是系统定义的。在方法一
如何用R语言实现决策树C5.0模型
你可以利用R软件中{RWeka}包的J48()函数。参考文献：R. Quinlan (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, San M
在java中类名.this得到的是什么?
这个一般在内部类里面用。。类名.this表示那个类名所代表的类的对象。。。比如class A { public void method（）{A.this就是表示A的对象。。在这种情况下和this是一样的} classB {v
急!!!请问各位高手：如何用C语言编程产生高斯白噪声？万分感谢啊！
http:topic.csdn.nett20020911091013593.html 有程序和头文件（还有3处更正）自己添加主程序和参数，调用 mrandom 即可。高斯白噪声就是一组高斯分布的随机数，如下面是产生均值为nois
r语言和sas哪个更适合制造行业的数据分析
你好，是这样的：[注]：这里仅仅讨论楼主所问的R和SAS两种软件简介：R与SAS都属于统计数据分析软件，R与SAS相比，R具有免费开源、应用广泛、可扩展度高等优点；SAS则属于模块化、集成化的软件，成本很高，但是能满足现有统计数据分析
python怎么把汉字变成字符号
python怎么把汉字变成字符号：在python中可以使用转义字符输出汉字方法如下：首先会返回一串十进制数，这是目标在python里的序数。再用hex() 将十进制的序数转换为八进制的。输出时，用转义字符'u+八进制的序号&
Go语言中new和 make的区别详解
1、new 的主要特性首先 new 是内建函数，定义也很简单：func new(Type) *Type内建函数 new 用来分配内存，第一个参数是一个类型，不是一个值，返回值是一个指向新分配类型零值的指针实现一个类似 new 的功能：fun
求解java怎样发送https请求
使用httpClient可以发送，具体的可以参考下面的代码SSLClient类，继承至HttpClientimport java.security.cert.CertificateExceptionimport java.securit
java中小数模1是多少
在Java中，小数模1的结果是0。具体来讲，“模”（求模算法）是一种用于处理数字的常见方法，可以将任意数字除以模数后所得的余数作为结果。在Java中，当使用模运算时，模的结果必须是介于0和（模数-1）之间的整数。因此，在Java中，如果使用
练习跳舞的英文歌推荐下
虫子再奉献43首好听的英文歌！（详见第二部分）虫子在这里作出保证：每一首都是大家喜欢的，一定要听听哦~。~第一部分（原来的）一.有一点点节奏感的：1.Anyone Of Us----Gareth Gates节奏好http:www.hye
go语言到底有什么好处
1. 部署简单Go 编译生成的是一个静态可执行文件，除了glibc外没有其他外部依赖。这让部署变得异常方便：目标机器上只需要一个基础的系统和必要的管理、监控工具，完全不需要操心应用所需的各种包、库的依赖关系，大大减轻了维护的负担。2. 并发
java中“this”的用法是什么
使用this调用本类中的属性x0dx0ax0dx0a现在观察以下代码，看会有那些问题：x0dx0ax0dx0apublic void setName(String name){x0dx0ax0dx0aname = n
go语言语法(基础语法篇)
import "worknamepacketfolder"导入多个包方法调用包名.函数不是函数或结构体所处文件或文件夹名 packagename.Func()前面加个点表示省略调用，那么调用
c语言中 int main()什么意思，
解释如下：1、int main()是C语言main函数的一种声明方式；2、int表示函数的返回值类型，表示该主函数的返回值是一个int类型的值；3、main表示主函数，是C语言约定的程序执行入口，其标准的定义格式为int main(i
ruby中的message.scan(regex).each{|m|puts"#{m[0]}"} 是什么意思
message 是一个字符串regex 是一个正则表达式message.scan(regex)得到符合regex这个正则表达式的一个数组message.scan(regex).each{|m|puts"#{m[0]}"
如何在Python中调用父类的同名方法
你好，请看下面的例子和说明：python中类的初始化方法是__init__()，因此父类子类的初始化方法都是这个，如果子类不实现这个函数，初始化时调用父类的初始化函数，如果子类实现这个函数，就覆盖了父类的这个函数，既然继承父类，就要在这个函

推荐阅读

热门文章

最新发布

标签列表

python抓取网页内容时出错，UnicodeEncodeError: 'gbk' codec can't encode character 'ue4bf.....

给您推荐相同类型的内容：