python爬虫，读取本地html时编码报错：UnicodeDecodeError: 'ascii' codec can't decode

2023-02-23 10:33:02Python07

python爬虫，读取本地html时编码报错：UnicodeDecodeError: 'ascii' codec can't decode,第1张

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

python3 区分了 unicode str 和 byte arrary，并且默认编码不再是 ascii

关于编码问题的终极解决方案：

在python的Lib\site-packages文件夹下新建一个sitecustomize.py

文件，输入：

import sys

sys.setdefaultencoding('gb2312')

这里要注意一点是：这里面你可以设置GBK或者utf8 或者其他类型的编码格式，不一定非要gb2312，主要看你操作的环境需要什么编码格式

mport urllib.request

import re

def getHtml(url):

page = urllib.request.urlopen(url)

html = page.read()

html = html.decode('GBK')

return html

def getMeg(html):

reg = re.compile(r'******')

meglist = re.findall(reg,html)

for meg in meglist:

with open('out.txt',mode='a',encoding='utf-8') as file:

file.write('%s\n' % meg)

if __name__ == "__main__":

html = getHtml(url)

getMeg(html)

可以使用Python自带的HTMLParser模块解析HTML文档：

HTMLParser的核心模块是org.htmlparser.Parser类，这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数：

public Parser ()

public Parser (Lexer lexer, ParserFeedback fb)

public Parser (URLConnection connection, ParserFeedback fb) throws ParserException

public Parser (String resource, ParserFeedback feedback) throws ParserException

public Parser (String resource) throws ParserException

public Parser (Lexer lexer)

public Parser (URLConnection connection) throws ParserException

和一个静态类public static Parser createParser (String html, String charset)

方式文档转换为模块几个

# 上一篇：C语言枚举类型是什么意思？

# 下一篇：有哪些可以免费下载sketchup模型的地方?

给您推荐相同类型的内容：

苹果笔记本怎么加内存?
问题一：苹果笔记本加内存条应该怎么操作macbook pro加内存步骤：1 购买内存条，请注意选用相同频率的内存，并保证两根条子是一样的。升级说明里面有电脑内存升级上限，务必看清楚。11年后的pro才可以升至16g，之前的智能是8g
雪落下的声音mp3陆虎百度云资源
《雪落下的声音》百度网盘资源免费下载链接: https:pan.baidu.coms1K3Gl6hi6YfK2gG3YbqO0WQ提取码: 4v9i 《雪落下的声音》是由于正作词，陆虎作曲并演唱的歌曲，亦是电视剧《延禧攻略》的
笔记本电脑按关机键却关不了机了怎么回事？
1.电脑无法关机的原因有很多种，介绍以下几种情况及处理办法。(1)系统文件中自动关机程序有缺陷。为了确认是否是这个原因所致，可以作下述实验。在“开始运行”中输入命令：“rundll32user.exe，exitwindows”，看看能否正
R语言：创建web界面
R语言使用shiny包创建web界面。使用 shinydashboard 包和 shinytheme ，美化界面样式，设置界面主题，提升界面整体水平。Shiny界面图库 shinydashboard shinytheme界面主题
rwby 游标卡尺武器叫什么
新月玫瑰、柳叶白菀、跃影飞绫和灰烬天堂。新月玫瑰（Crescent Rose）是一把大口径高速狙击步枪镰刀，颜色为玫瑰红色与黑色，也是Ruby所选择的武器。柳叶白菀（Myrtenaster）是一把魔法左轮多重尘晶突刺剑，剑体呈银灰色。跃影
笔记本电脑怎么连接显示器
方法支持Win10、Win7、Win8等Windows操作。首先我们需要将显示器视频线连接笔记本电脑的显示接口上，先要看下您的笔记本是什么显示接口，例如HDMI、VGA、DP、DVI等，一般较老笔记本电脑基本都是VGA接口，举个例子，如果
《数量生态学：R语言的应用》第二版阅读笔记2
对于我们的物种数据，通常具有相同的刚量，通常是正值和零，对这样的数据几种简单的转化函数，可以降低极大值的影响：简单转化只是对数值进行独立的处理，而标准化是数值之间的处理。这些标准化过程是否正常运行？最好利用绘图函数或总结函数密
乐高机器人编程与电脑编程区别
乐高机器人编程与电脑编程区别为：编程系统不同、实物要求不同、操作人员不同。一、编程系统不同1、乐高机器人编程：乐高机器人编程是基于乐高本身的编程系统。2、电脑编程：电脑编程是基于编程语言各自的编程系统。二、实物要求不同1、乐高机器
使用Go 语言开发大型 MMORPG 游戏伺服器怎么样
使用Go 语言开发大型 MMORPG 游戏伺服器怎么样如果是大型网路游戏的话，我觉得是不合适的。现阶段go语言的执行效率还是太低了。在底层编译器的优化方面做得和c++相比还是差了不少。go语言也是比较适合快速开发的专案比较合适从
go语言能做什么关于go语言的介绍
1、Go作为Google2009年推出的语言，其被设计成一门应用于搭载 Web 服务器，存储集群或类似用途的巨型中央服务器的系统编程语言。2、对于高性能分布式系统领域而言，Go 语言无疑比大多数其它语言有着更高的开发效率。它提供了海量并
RUBY语言怎么判断指定目录是否存在
ruby中判断目录是否存在：File.directory?(argu)ruby文件操作：使用File类的静态方法，或者File类的实例对象 File类的静态方法File::atime(filename)返回指定文件的最后访问时间1.创建文件
java 如何只通过后台把本地的图片上传的服务器上去？
这里你弄错了一个问题x0dx0a你的程序是要传递图片的二进制数据.x0dx0a而不是传递路径,然后再到服务器读取文件数据(你的服务器有这个文件?)x0dx0a只有当你的服务器下有这个文件了,你传递一个路径,读取是可以的.x0d
基于R语言的梯度推进算法介绍
基于R语言的梯度推进算法介绍通常来说，我们可以从两个方面来提高一个预测模型的准确性：完善特征工程（feature engineering）或是直接使用Boosting算法。通过大量数据科学竞赛的试炼，我们可以发现人们更钟爱于Boostin
python入门教程？
给大家整理的这套python学习路线图，按照此教程一步步的学习来，肯定会对python有更深刻的认识。或许可以喜欢上python这个易学，精简，开源的语言。此套教程，不但有视频教程，还有源码分享，让大家能真正打开python的大门，进入这个
numpy库怎么安装
numpy库安装方法如下。1、下载Numpy模块包。输入下载网址“https：pypi.org”，搜索“numpy”，最右侧栏目Navigation“Downloadfiles”。2、安装python时，将python安装目录下的Scr
go语言到底有什么好处
1. 部署简单Go 编译生成的是一个静态可执行文件，除了glibc外没有其他外部依赖。这让部署变得异常方便：目标机器上只需要一个基础的系统和必要的管理、监控工具，完全不需要操心应用所需的各种包、库的依赖关系，大大减轻了维护的负担。2. 并发
比比比比比比比比比路比
比比比比比比比比比路比比比比比比比比比比路比中文名：路比英文名：Ruby日文假名：ルビー人物设定：电玩红·蓝·绿宝石版男主角特殊能力：神奇宝贝华丽大赛（华丽大赛之人）出生地：小金市（满金市）性别：男血型：O型年龄：第四章11岁／第六章12岁
java多线程并发去调用一个类的静态方法，有什么问题？
总的结论：java是线程安全的，即对任何方法（包括静态方法）都可以不考虑线程冲突，但有一个前提，就是不能存在全局变量。如果存在全局变量，则需要使用同步机制。x0dx0ax0dx0a如下通过一组对比例子从头讲解：x0dx0a
Golang数据结构与算法全能战士
今天给大家推荐是由Social Explorer团队开源的gods框架，自称"上帝"，听这个名字就很霸气,正确的解释是GoDS(Go Data Structures)，是数据结构与算法相关的框架。全能战士，该框架覆
android 可以用go 语言吗
Go语言将支持Android概述我们建议将Go语言引入Android平台，重点是用Go语言编写游戏程序，API将在AndroidNDK中定义。背景Android平台被设定为一个多应用操作系统，一个相对于传统UNIX系统来说更依赖于网络库和服
笔记本上的本地连接不见了？怎么找回来？
电脑本地连接消失的找回方法如下：方法一:右键电脑桌面的“计算机”——“管理”2.在弹出框点击“设备管理器”，找到网络适配器下的有线网卡，查看是否有问号或者感叹号3.如果上图有感叹号或问号，那么需要重新安装网卡驱动，说明网卡驱动不正常或根
R语言z-score转p.value
z-score计算方法为： Z =（x-μ） σ μ为均值，σ为标准差。以下是R中将z-score转为p.value的方法： pnorm(q, mean = 0, sd = 1, lower.tail = TRUE)
推荐一个GO语言教程，最好能从最基础的开始？
Go 语言被设计成一门应用于搭载 Web 服务器，存储集群或类似用途的巨型中央服务器的系统编程语言。对于高性能分布式系统领域而言，Go 语言无疑比大多数其它语言有着更高的开发效率。它提供了海量并行的支持，这对于游戏服务端的开发而言是再好不过
Python和go那个简单好学？
毫无疑问是PythonPython这个语言设计者Guido 是计算机和数学双硕士，所以Python语法很接近数学思维比如a=1这种直白。相比于C JAVA这种不用声明变量类型又有交互命令行，可以随时看代码有没有问题，去检查效果，是非常适合
怎么用c语言表示ln
1 使用math.h中的log函数，其相当于ln2 示例：求ln(2)的值#include&ltstdio.h&gt#include&ltmath.h&gtint main(){double n = 2
c语言中什么叫做单步调试，步骤是什么？？？
单步调试是指程序开发中，为了找到程序的bug，通常采用的一种调试手段，一步一步跟踪程序执行的流程，根据变量的值，找到错误的原因。解决这个问题的方法如下：1、首先需要设置断点的那一行代码的最前面点击下，就会出现一个红色的圆球，代表设置断点
numpy库怎么安装
numpy库安装方法如下。1、下载Numpy模块包。输入下载网址“https：pypi.org”，搜索“numpy”，最右侧栏目Navigation“Downloadfiles”。2、安装python时，将python安装目录下的Scr
如何学好python
本文跟大家谈谈为什么要学python以及如何学好python。欢迎在线学习！一、作为初学者，应该如何学python？很多人对python缩进试的简洁表达不以为然。那些都是已混迹于C和JAVA的老鸟已经习惯了花括号。对于初学者，
python第三方库，国内镜像源（清华&阿里）
命令：例： pip install -ihttps:pypi.tuna.tsinghua.edu.cnsimplepyqt5 国内两个镜像源：清华： https:pypi.tuna.tsinghua.e
人工智能是用什么语言编写的？
人工智能用的比较多的语言有：Python、JAVA 和相关语言、CC++、JavaScript、R语言。从事人工智能，需要数学基础：高等数学，线性代数，概率论数理统计和随机过程，离散数学，数值分析。需要算法的积累：人工神经网络，支持向量机

推荐阅读

热门文章

最新发布

标签列表

python爬虫，读取本地html时编码报错：UnicodeDecodeError: 'ascii' codec can't decode

给您推荐相同类型的内容：