如何用Python爬虫抓取网页内容?

2023-02-19 08:34:01Python017

如何用Python爬虫抓取网页内容?,第1张

爬虫流程

其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤

模拟请求网页。模拟浏览器，打开目标网站。

获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。

保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。

Requests 使用

Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。

模拟发送 HTTP 请求

发送 GET 请求

当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求

import requests

res = requests.get('http://www.douban.com')

print(res)

print(type(res))

>>>

方法/步骤

在做爬取数据之前，你需要下载安装两个东西，一个是urllib,另外一个是python-docx。

请点击输入图片描述

然后在python的编辑器中输入import选项，提供这两个库的服务

请点击输入图片描述

urllib主要负责抓取网页的数据，单纯的抓取网页数据其实很简单，输入如图所示的命令，后面带链接即可。

请点击输入图片描述

抓取下来了，还不算，必须要进行读取，否则无效。

请点击输入图片描述

接下来就是抓码了，不转码是完成不了保存的，将读取的函数read转码。再随便标记一个比如XA。

请点击输入图片描述

最后再输入三句，第一句的意思是新建一个空白的word文档。

第二句的意思是在文档中添加正文段落，将变量XA抓取下来的东西导进去。

第三句的意思是保存文档docx，名字在括号里面。

请点击输入图片描述

这个爬下来的是源代码，如果还需要筛选的话需要自己去添加各种正则表达式。

请点击爬虫数据图片网页

# 上一篇：C语言，“次方”怎么用？

# 下一篇：java软件下载后怎么安装？

给您推荐相同类型的内容：

go语言开发为什么难找工作
Go语言的工作需求量不大，所以工作比较难找。目前仅凭Go语言不好找工作，一是因为圈子不大，需求量也不大，二是即使工作需Go，也不是仅凭Go就可以，更重要的是其他的，比如云平台开发经验这些Go的应用能力。随着Go语言越来越成熟，很多大厂还是有
R语言-导出数据为dta格式
install.packages('haven') library(haven)write_dta(Men, "C:UsersMen.dta")1.R数据的保存与加载可通过save
html里的input文本框怎样单行变多行
多行的就不能使用Input了。需要使用textarea标签属性：textarea代表html的单多行输入域html多行输入框tyle="OVERFLOW: hidden"&gtstyle="
html中border的颜色输入怎么不显示
html中border的颜色输入不显示的解决办法：1、首先打开html编辑器，新建html文件。2、在index.html中的标签中，输入html代码。3、浏览器运行index.html页面，此时表格内只有第2个单元格有线框显示。borde
琼瑶的歌ABAB 形式的叫什么名字求大神帮助
amazing grace》《Every breath you take》《E-猫儿》《jambalaya（赵薇-小冤家）》《love me tender》《爱爱爱》《爱花千万知花意》《爱情来了》《把爱埋在心窝》《百夷舞曲》《奔向彩虹》《奔
html 让文本靠底部
html让文本靠底部的办法。如下参考：1、超文本标记语言是WWW的描述语言。设计HTML语言的目的是为了能把存放在一台电脑中的文本或图形与另一台电脑中的文本或图形方便地联系在一起，形成有机的整体，人们不用考虑具体信息是在当前电脑上还是在网
如何下载或复制网页上的表格到Excel里？
1，将包括所需表格的网页打开，并按ctrl+c把网址复制到剪贴板，以备下一步使用。2，打开运行excel软件，单击菜单栏中的“数据→导入外部数据→新建web查询”，打开“新建web查询”对话框，将含有表格数据的网页的网址粘贴（或输入）到“新
魔女幼熙国语版全集
魔女幼熙(国语版)全集(48个视频)魔女幼熙(国语版)(49个视频)魔女幼熙(国语版)全集(48个视频)土豆公告...只要用鼠标拖动进度条上的小按钮,拖到哪里,就可以从...上一个:魔女幼熙[04]c(yy...下一个:魔女幼熙[07]..
请问这个动漫人物是谁，在哪个动漫里？
您好~这是RWBY中的RUby.现在该动画每周五更新一次RWBY是一部在2013年7月播出的动画。R、W、B、Y 分别是英语红白黑黄的首字母，代表的分别是四位女主角的主题色。由美国 Rooster Teeth 动画工作室RWBY团队制作
[Python实例] python获取安卓手机的手机电量以及充电状态
Android的adb命令可以获取手机的基础信息，比如：电池、网络、内存等等，所以下面使用python的os模块来获取手机的电池电量以及充电状态注意：手机必须连接到电脑，并打开手机的USB调试模式才能够获取到电池信息。在我看来，Pyt
找一部电影
第五元素片名：第五元素英文名：Fifth Element, The导演：吕克·贝松主演：米拉·乔沃维奇加里·奥德曼布鲁斯·威利斯伊恩·霍姆 Luke Perry 类型：剧情科幻爱情动作奇幻预告片：上映：1997年01月0
怎么用java实现html代码
ava要运行html代码，需要运行在服务器端，也就是servlet容器中，经过容器编译解析，返回html静态内容，示例如下：在servlet里面写就可以了引入一系列包import java.io.IOExceptionimport java
cil 什么缩写
1、cil，通用中间语言(Common Intermediate Language，简称CIL)(亦被称作MSIL或IL)是一种属于通用语言架构和 .NET 框架的低阶(lowest-level)的人类可读的编程语言。目标为 .NET 框架
电脑系统哪个最稳定?
现在哪个电脑系统最好最稳定呢？实际使用XP是最不稳定的，常重装……Win7偶尔还会出内存为只读的错误，但重装现象已经不多了……Win8开机速度感觉很快，错误不多，总体良好，但没有开始按钮是个失败……Win8.1给我的观感非常不
python入门实例教程
python入门实例教程！步骤1：这里我将简单告诉大家一个用python软件编写的一个关于货物售价折扣方面的一个计算程序，首先打开python软件。步骤2：进入python后，会出现如图所示界面，按照图中箭头指示，先选择File选项，然后在
如何实现 .NET 软件的多语言？
VS好像专门的属性的~~~先Language属性里更改语言，然后傻瓜式的每一个中文改成外语，他会自己生成的资源的文件的，超简单~~我认为第一种要更好一点~~因为制作简单，读取也方便，只有不到10行代码！而第二种，貌似代码要用10行来做单位了
cpu在哪怎么看电脑cpu
1、cpu位于主板上，打开电脑机箱，在主板中央位置的就是CPU，打开CPU插槽的卡扣即可将CPU取出，再次装入时建议涂抹硅脂。2、怎么查看电脑cpu（1）首先右键单击计算机（或者是我的电脑）。（2）在打开的快捷菜单中单击管理。
html图片类型怎样插入到word文档中
1、在文档中插入剪贴画的操作是通过执行“插入”→“图片”→“剪贴画”菜单命令实现的。2、插入图片文件的方法是：执行“插入”→“图片”→“来自文件”菜单命令，在“插入图片”对话框中，找到存放图片的文件夹和相应的图片后，单击“插入”按钮。3、设
如何在R语言中自定义函数
#include&ltstdio.h&gt#include&ltmath.h&gtvoid add(float x,float y) 函数定义{printf("%5.2fn",x
怎么取消计算机的管理员权限
1、从计算机图标中，右键单击并选择管理。2、接下来，找到图位置并直接选择Administrators。3、此时，需要右键单击该属性。4、如果没有问题，就要删除Guest。5、这样就可以取消计算机的管理员权限了。使用电脑时，要解除用户的管理
在R语言中,怎么设函数判断字符串的大小
第一步，获取向量中的所有元素的的长度，可以使用nchar()函数，如下图所示：请点击输入图片描述第二步，截取字符串的字串，可以使用substr()函数，如下图所示：请点击输入图片描述第三步，判断某个字符串在某个向量的某个位置，使用grep(
java软件下载后怎么安装？
下载后直接安装就好！一直下一步啦！x0dx0a然后配置环境变量：x0dx0ax0dx0a在windows桌面上右击“我的电脑” —&gt“属性” —&gt“高级” —&gt“环境变量”，在“系统变量”里我
psp连接不上电脑怎么办？
首先PSP连接电脑方法是，将USB线接到PSP和电脑上，如果此时没有自动连接请选择，[设定]下面的[USB连接]进行手动连接，另外游戏中无法连接USB。x0dx0a如果还是没有反应，可以试试更换一条数据线。因为数据线是比较容易坏的设备。
如何用 python 做一个考勤系统
用python做考勤系统基本不可能，可以用来做后台考勤数据管理，python在数据统计方面有先天优势，hr假如使用python管理的后台基本只需要傻瓜式操作。传统考勤大多数以磁卡识别为主，但这样代打卡的问题不能解决，还有虹膜识别，这样的考勤
go是啥语言.
GO语言由Google公司开发，并于2009年开源，对比Java、Python、C等语言，GO尤其擅长并发编程，性能堪比C语言，开发效率比肩Python，被誉为21世纪的C语言。GO语言在云计算、大数据、微服务、高并发领域，应用非常广泛。B
HTML页面刷新清除页面缓存
JSP清理缓存的方法：在jsp页里&lt%response.setHeader("Pragma","No-cache")response.setHeader("Cache-Contr
java软件下载后怎么安装？
下载后直接安装就好！一直下一步啦！x0dx0a然后配置环境变量：x0dx0ax0dx0a在windows桌面上右击“我的电脑” —&gt“属性” —&gt“高级” —&gt“环境变量”，在“系统变量”里我
怎么设置电脑IP地址？在哪里设置？
电脑IP设置在网络连接的网卡上进行设置的，具体操作如下：1、桌面快捷方式点击“控制面板”2、选择“网络和共享中心”3、点击左边菜单的“更改适配器设置”4、选择对应的网卡右键属性5、属性页面中，双击红色框框IPV4（如图）6、弹出了IP设置
JAVA中有哪几种常用的排序方法？
最主要的是冒泡排序、选择排序、插入排序以及快速排序1、冒泡排序冒泡排序是一个比较简单的排序方法。在待排序的数列基本有序的情况下排序速度较快。若要排序的数有n个，则需要n-1轮排序，第j轮排序中，从第一个数开始，相邻两数比较，若不符合所要求
ruby可以做什么?
Ruby，一种为简单快捷的面向对象编程（面向对象程序设计）而创的脚本语言.作用：Ruby 是开源的，在Web 上免费提供，但需要一个许可证。Ruby 是一种通用的、解释的编程语言。Ruby 是一种真正的面向对象编程语言。Ruby 是一种类似

推荐阅读

热门文章

最新发布

标签列表

如何用Python爬虫抓取网页内容?

给您推荐相同类型的内容：