python爬虫将在线html网页中的图片链接替换成本地链接并将html文件下载到本地

2023-02-19 14:19:02html-css039

python爬虫将在线html网页中的图片链接替换成本地链接并将html文件下载到本地,第1张

import os,re

def check_flag(flag):

regex = re.compile(r'images\/')

result = True if regex.match(flag) else False

return result

#soup = BeautifulSoup(open('index.html'))

from bs4 import BeautifulSoup

html_content = '''

'''

file = open(r'favour-en.html','r',encoding="UTF-8")

soup = BeautifulSoup(file, 'html.parser')

for element in soup.find_all('img'):

if 'src' in element.attrs:

print(element.attrs['src'])

if check_flag(element.attrs['src']):

#if element.attrs['src'].find("png"):

element.attrs['src'] = "michenxxxxxxxxxxxx" +'/'+ element.attrs['src']

print("##################################")

with open('index.html', 'w',encoding="UTF-8") as fp:

fp.write(soup.prettify()) # prettify()的作⽤是将sp美化⼀下，有可读性

可以使用requests模块完成下载

# --------------------第一种：使用headers携带cookie-----------------------------

# coding = utf-8

import requests

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 6.1 Win64 x64),

'Cookie':'你的cookies',

}

# 发起请求，获取二进制数据

html_str = requests.get(url,headers=headers).content

# 写入文件,采用二进制写入文件

with open('路径/文件名.后缀'，'wb') as f:

f.write(html_str)

# --------------------第二种：在requests直接携带--------------------------------

# coding = utf-8

import requests

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 6.1 Win64 x64),

}

cookies = {你的cookies，这里必须是以键值对，也就是字典的形式}

# 发起请求，获取二进制数据

html_str = requests.get(url,headers=headers,cookies = cookies).content

# 写入文件,采用二进制写入文件

with open('路径/文件名.后缀'，'wb') as f:

f.write(html_str)

python提取html内容的方法。如下参考：

1.首先，打开Python来定义字符串，在定义的字符串后面加上中括号，然后在要提取的字符位置输入zhidao。

2.点击运行程序，可以看到系统打印出的第一个字符在我们定义的字符串中，因为字符串是空格，空格占据了位置。

3.这里可以看到字符显示在程序运行界面的底部，根据我们指定的内容输出，这里写的版本是0输出的第一个字符。

4.还可以一次打印多个字符。如图所示，用冒号分隔字符串的开头，并将其写入方括号中以显示多个字符。

5.这里的输入位置是0到5，你可以发现，与我们的字符串内容相比，字符的相应位置被打印出来，而字符的另一个位置则完全不显示。

6.如果字符串比较大，大于内容的权重，从下面的数字比较方便，也可以直接输出倒数的字符。

7.这时直接用负号来表示这是倒数的位置，它使用起来也特别方便。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：电脑在哪里输入上网账号和密码

# 下一篇：如何知道自己电脑尺寸

给您推荐相同类型的内容：

学电脑应该报什么专业哪些专业挣钱
学电脑应该报计算机科学与技术专业或者软件工程专业，这两个专业前景非常好，来看一下！学电脑应该报哪些专业挣钱计算机科学与技术专业1、网络工程方向就业前景良好，学生毕业后可以到国内外大型电信服务商、大型通信设备
电脑硬件温度检测软件哪个好？
　电脑温度检测工具推荐：以下软件排名不分先后，特此说明一、魔方温度检测魔方温度检测魔方温度监测是一款用于监测电脑设备温度的小工具，它能够支持监测CPU、硬盘、主板等设备的实时温度，并且为用户提供了非常方便的悬浮窗查看当前设备温度。使
求一段左下角漂浮的JS广告代码？可以随窗口上下滚动的，要JS的。
复制粘贴我的代码：&lt!DOCTYPE html PUBLIC "-W3CDTD XHTML 1.0 TransitionalEN""http:www.w3.orgTRxhtml1
从美国买电脑怎样操作呢
1。要在海关出示购买的发票，并要填写一份入境个人财产清单，表明是私人用的物品。 2。说明书和光盘全是英文的，你要是以前没用过笔记本或是对电脑不是很精通的话，用起来是比较费劲的。即使你英文比较好，里面的一些专业术语也够你翻译一阵的了。第一
RTX2080＋i9该配什么主板，电源，内存，散热和硬盘？
顶级主板MSI或者ASUS都行，推荐MSI，bios更新稍微频繁一些，感觉易用度相对好过华硕一点点。ASUS的话~灯效好一些吧~建议买个中等价位的z390，内存插上4*8四通道的b-die颗粒内存条，性能c14下3200以上的幻光戟、海盗船
抖音回溯录制和录屏什么区别
录屏是通过录屏软件将桌面的所操作的的过程给记录下来。回溯录制是指上溯、向上推导或向内推导用录音机或录像机把声音或形象记录下来，加工制成某种作品。具有重新复盘的材料，还有时间重新剪辑，可以对照对比，总比没有素材好。怎么开回溯录制呢。进入抖
在HTML中div是不是换行的意思？那<p><p>呢有什么作用什么意思
HTML中div不是换行的意思，div是一个标准的块元素，独占一行。而p标签是段落标签。1、&ltdiv&gt可定义文档中的分区或节。&ltdiv&gt标签可以把文档分割为独立的、不同的部分。它可以用作严格的
扫雷具有哪些优点？
扫雷具按工作原理，分为接触扫雷具和非接触扫雷具；按携带方式，分为拖曳扫雷具、艇具合一扫雷具、遥控扫雷具；按使用水域，分为海洋扫雷具和江河港湾扫雷具。扫雷具的优点是扫雷宽度大，特别是接触扫雷具具有较好的作业效率。但是，目前水雷战往往同时使用
电脑关机后自动还原，怎么取消？
每次电脑关机后再次开机又还原到最初的设置，这对我们来说有很大的不方便，大家安装在电脑对自己有用的东西都没了。我们还得重复操作，再次安装。那么，怎么取消电脑的自动还原功能呢？工具原料电脑如何取消自动还原在电脑开始菜单处搜索“运行”两个字，
一个大的DIV中嵌套两个小的DIV一左一右
大的DIV中嵌套两个小的DIV一左一右步骤如下：1，首先，图中显示的Web结构是html和css。2，打开html页面，如图所示，定义一个大div和两个小div。3，最常用的float float，只要两个小div的宽度小于或等于大div
如何查看电脑的配置
系统中查看产品配置右击【开始】，依次点击【设置】【系统】，下拉点击【关于】，查看设备规格和Windows规格。也可以直接通过【WIN】+【pausebreak】快捷键打开“关于”查看。（操作步骤及图示以Win11为例，Win10的操
js计时器中setTimeout和setInterval的区别和使用
JavaScript 计时器计时器类型：一次性计时器(setTimeout)：仅在指定的延迟时间之后触发一次。间隔性触发计时器(setInterval)：每隔一定的时间间隔就触发一次。计时器方法：一.计时器setInterval()
神鬼世界大祭司技能如何加点
你自己都说了JS是辅助职业了那么辅助技能一定要点满看清楚是一定要点满包括（治愈术治疗祝福灵魂强化强身术）治疗源泉点不点我认为没什么关系如果你单加够狠在加上群加辅助根本不需要治疗源泉其次就是控制技能了那可是保命的技能一定要点满P
js和前端有区别么？
js的全名是“JavaScript”，是其中一种前端编程语言。前端即网站前台部分，运行在PC端，移动端等浏览器上展现给用户浏览的网页。前端包含很多编程语言技术（js、html、css、vue等）js代码全名叫javascript 是运行
大家玩电脑游戏磁盘不够了，怎么买的？
一般我喜欢去实体店购买，其次是网购，如果考虑质量好一点的，，选择京东，毕竟京东的物流会比其他物流好很多，我记得老早淘宝上购买过机械硬盘，使用没多久就出现不少坏道，网上搜索是因为物流运输时候的磕碰还有运输时候的野蛮操作等等，，如果你不差钱可以
电脑系统装机哪个系统好呢？
你好，我做了多年IT维护，在生活工作中经常有人问我这个问题。正好今天碰到这个问题，我就回答一下。电脑能装什么系统，这个跟电脑硬件自身硬件有很大关系，系统属于软件，硬件是软件的底层，没有硬件支持，就无法加载软件。那么都有什
梦见买电脑
梦见买电脑是什么意思？梦见买电脑好不好，代表着什么？下面详细介绍关于梦见买电脑的相关解法，快来看看吧！梦见买电脑意味着：与恋人一同外出游玩的话，今天是不错的日子。你们会有更加深入的体验，彼此也容易体会到对方的用心呢。梦
哪位大哥能否告诉小弟sleep mode与standby mode的主要区别是什么
sleep mode休眠模式standby mode待机模式待机是将当前处于运行状态的数据保存在内存中，机器只对内存供电，而硬盘、屏幕和CPU等部件则停止供电。由于数据存储在速度快的内存中，因此进入等待状态和唤醒的速度比较快。不过这
请问怎么恢复开机自检
电脑启动后，直接进入系统界面，而没有进行自检，如果电脑软硬件出问题了，或是上次未正常关机，无法找到问题所在，所以开机自检对检测电脑是至关重要的。那么恢复被禁止的电脑开机自检功能，就教大家一个简单的方法。点击“开始”“运行”输入cmd回车
昆明代理记账：你所关注的，怎么选择专业的代理记账公司？
随着互联网+的推动，越来越多的代理记账公司出现，好坏也参差不齐，很多人也为此吃了不少的亏，那么在这样的情况下，我们该如何选择正规的代理记账公司?关于这个问题下面曼德企服给大家详细的介绍下。1、营业执正规注册的代理记账公司都有工商局颁发的营业
手机怎么设置电脑版网页
手机设置电脑版网页方法如下：方法一：手机QQ浏览器，打开手机QQ浏览器，进入主页面，点击屏幕下方的三图标，再点击设置；进入设置页面，点击浏览器UA标识，把浏览器UA标识改为电脑即可；方法二：360浏览器，打开手机360浏览器，进入主页面，点
电脑a口c口是什么意思啊
A接口是中继侧应用广泛的一种数字接口，数字交换与数字传输结合，构成了当今数字电信网络。Type-A接口类型是最常见的USB接口，主要用在电脑，充电器，鼠标，键盘，U盘等设备上。A接口：MSC和BSC之间的接口。该接口传送有关移动呼叫处理、基
电脑颜色不正常怎么调
电脑颜色不正常的调节方法如下：工具原料：联想X666Plus，win10专业版。1、在电脑桌面上用鼠标右键，然后选中显示设置点击进去这个界面。2、打开显示设置后，在右侧往下滑，然后点击高级设置。3、然后我们在高级显示设置里面点击显示器
HTML DOM结构
根据 W3C 的 HTML DOM 标准，HTML 文档中的所有内容都是节点：通过 HTML DOM，树中的所有节点均可通过 JavaScript 进行访问。所有 HTML 元素（节点）均可被修改，也可以创建或删除节点。 &
电脑上填完表格信息怎样保存
解决电脑上填完表格信息怎样保存的步骤如下：1.打开excel表格，用鼠标选择“工具”——“选项”。2.在跳出的对话框中，选择“保存”选项卡。3.在下方勾选“保存自动恢复信息，每隔”前面的选择框，在后面的“分钟”框中输入电脑能间隔多长时间自
电脑显示器怎么校正
你们知道怎么校正电脑的显示器吗，下面是我带来的关于电脑显示器怎么校正的内容，欢迎阅读!电脑显示器怎么校正?打开电脑，可以通过鼠标右键屏幕空白处，选择“分辨率调整”项打开显示的设置。现在，在外观设置栏下方找到“高级设置
移动终端是什么？
定义：在移动通信设备中，终止来自或送至网络的无线传输，并将终端设备的能力适配到无线传输的部分。现代的移动终端已经拥有极为强大的处理能力（CPU主频已经接近2G）、内存、固化存储介质以及像电脑一样的操作系统。是一个完整的超小型计算机系统。可
吃鸡笔记本i54800H 16G 512G RTX2060应该开什么画质？
想要流畅运行的话，建议开中画质。\x0a\x0a玩吃鸡更推荐选择戴尔游匣G15游戏本。强劲性能，尽享流畅无卡顿的游戏、流媒体或视频体验。散热设计焕新升级，赋予 G15 巨大潜力，在发挥强大性能同时适应不断变化的系统负载。采用双进气口，分
买华硕电脑，送HDMI线吗？
通常购买笔记本电脑是不会赠送HDMI线的，因为标准的配置是没有的，据我所知华硕的笔记本标准配置的是一个鼠标+一个电池+一本保修卡以及两张或者三张驱动光盘+电源线+适配器+电池线扎带，就这些东西是标准的配置是什么数据线？电脑的各种配件都带有数
4000元左右电脑什么配置好？
分类:电脑网络 &gt&gt硬件问题描述:4000左右的电脑性价比较高的什么样的配置最好？要求：CPU为AMD的，内存512M，硬盘为80G,光驱为DVD刻录，显示器为液晶15或17英吋，节能好（每