如何用Python爬虫抓取网页内容?

2023-02-24 03:56:01Python026

如何用Python爬虫抓取网页内容?,第1张

爬虫流程

其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤

模拟请求网页。模拟浏览器，打开目标网站。

获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。

保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。

Requests 使用

Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。

模拟发送 HTTP 请求

发送 GET 请求

当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求

import requests

res = requests.get('http://www.douban.com')

print(res)

print(type(res))

>>>

1、抓取网页、分析请求

2、解析网页、寻找数据

3、储存数据、多页处理

翻页有规律：

很多网址在第一页时并没有变化，多翻下一页后规律就出来，比如豆瓣第一页和豆瓣第三页

发现start为40，limit=20，所以猜测start=0就是第一页，每页显示20条数据，对于第三页显示的参数可以一个个删除验证，可以减去不必要的参数， 但是删除前一定要做好数据的对比

（1） 文本框输入后产生一个请求，如常见的登录、注册页面

Referer：表示当前请求的来源

Request URL：表示实际请求地址

翻页后URL不变，该如何寻找请求？

如： http://www.zkh360.com/zkh_catalog/3.html

通过对比可以发现网站是通过pageIndex参数控制翻页的，？表示连接

接下来用抓包工具分析下，从第四页开始看URL就知道了，但是前面几面需要查看请求的参数，这里偏多，就切换到【Inspectors--Webforms】选项，看的比较直观

类似的网站还有今日头条，有兴趣的朋友可以去研究下

（可通过获取max_behot_time的值而改变as和cp）

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

python2

爬虫：从网页上采取数据

爬虫模块：urllib,urllib2,re,bs4,requests,scrapy,xlml

1.urllib

2.request

3.bs4

4.正则re

5种数据类型

(1)数字Number

(2)字符串String

(3)列表List[] 中文在可迭代对象就是unicode对象

(4)元组Tuple()

(5)字典Set{}

爬虫思路：

1.静态 urlopen打开网页------获取源码read

2.requests(模块) get/post请求----获取源码 text()方法 content()方法(建议)

3.bs4 能够解析HTML和XML

-- coding:utf-8 –

from bs4 import BeautifulSoup

html=“

2018.1.8 14:03

”

soup=BeautifulSoup(html,‘html.parser’) #解析网页

print soup.div

2从文件中读取

html=’’

soup=BeautifulSoup(open(‘index.html’),‘html.parser’)

print soup.prettify()

4.获取所需信息

爬虫数据网页第一页网站

# 上一篇：C语言能开发什么?

# 下一篇：go语言中全局变量和局部变量的区别

给您推荐相同类型的内容：

我买了cardo蓝牙耳机，但在安装时不能紧贴耳朵怎么办？
可以试一下蓝牙连接方法大体详细步骤是：1、首先手机、车载蓝牙设备要建立配对关系。分别开启手机、车载蓝牙设备的蓝牙功能，并将手机蓝牙设置中设为所有人可见。2、然后在手机中搜索蓝牙设备，查找到之后选中进行配对连接，配对密码为：0000，完成配对
python编程开发软件有哪些？
Python开发软件可根据其用途不同分为两种，一种是Python代码编辑器，一种是Python集成开发工具，两者的配合使用可以极大的提高Python开发人员的编程效率，以下是常用的几款Python代码编辑器和Python集成开发工具。一
C语言中整型数能不能做出发运算
是可以做除法的，关键是除法结果会进行舍去小数部分。我可以给你举个例子#include&ltstdio.h&gtvoid main(){int i=2,j=3,kk=ji数学计算结果1.5，k为int类型，舍弃小
求尚硅谷全套java视频百度云
尚硅谷Android全套教程百度网盘免费资源在线学习链接: https:pan.baidu.coms1OTofegcTzEPG8C8hc6tXDA提取码: iryt 尚硅谷Android全套教程6.Android学科-
R里print（x，digits=12）什么意思？
R语言中，print(x,digits=12)的意思是，输出数值变量x，格式为有效数字12位。相当于是c语言的printf("%.12f",x)print(x,digits=12)如图。为什么要考虑输出格式呢，因为机器
Go语言和其他语言的不同之基本语法
Go语言作为出现比较晚的一门编程语言，在其原生支持高并发、云原生等领域的优秀表现，像目前比较流行的容器编排技术Kubernetes、容器技术Docker都是用Go语言写的，像Java等其他面向对象的语言，虽然也能做云原生相关的开发，但是
java中的小数，如何分别输出整数部分和小数部分？
1、float a = 1.2f2、String s = String.valueOf(a)3、String[] ss = s.split(".")4、System.out.println("整数部分:&
Python爬虫（七）数据处理方法之JSON
JSON 指的是 JavaScript 对象表示法（JavaScript Object Notation），是轻量级的文本数据交换格式，且具有自我描述性，更易理解。 JSON看起来像python类型（列表，字典）的字符串。在之前的
ps和r语言在作图上相同地方有哪些
图层一样。ps和r语言中的图层一样，每一个元素都是层层向上延展构建的，最终形成了我们视觉上所形成的平面图形。这些元素包含了常见的图形的标题。PS在线图片编辑器是一个专业精简的在线ps图片照片制作处理软件工具，绿色免安装，免下载，直接在浏览器
如何用R语言，随机生成一系列向量（x,y）（满足x~U[0,1],y~U[0,1]）
设随机变量X,Y相互独立,X~~N(0,1),Y~~U[0,1],求P(X&gtY)”相关的问题，学网通过互联网对“设随机变量X,Y相互独立,X~~N(0,1),Y~~U[0,1],求P(X&gtY)”相关的解决方案进行了整
go语言适合做什么
go语言适用的领域有：Go语言主要用作服务器端开发，其定位是用来开发“大型软件”的，适合于很多程序员一起开发大型软件，并且开发周期长，支持云计算的网络服务。Go语言作为服务器编程语言，很适合处理日志、数据打包、虚拟机处理、文件系统、分布
cad软件快捷键命令
在CAD软件操作中，为方便使用者，利用快捷键代替鼠标。可以利用键盘快捷键发出命令，完成绘图，修改，保存等操作。这些命令键就是CAD快捷键。那么cad命令有哪些?下面为大家介绍常用CAD命令、快捷键和命令说明大全，赶紧看看吧!acad.pgp
ruby可以做什么?
Ruby，一种为简单快捷的面向对象编程（面向对象程序设计）而创的脚本语言.作用：Ruby 是开源的，在Web 上免费提供，但需要一个许可证。Ruby 是一种通用的、解释的编程语言。Ruby 是一种真正的面向对象编程语言。Ruby 是一种类似
Python 爬虫的入门教程有哪些值得推荐的？
Python 爬虫的入门教程有很多，以下是我推荐的几本：1.《Python 网络爬虫开发实战》：这本书介绍了Python爬虫的基本原理，以及如何使用Python编写爬虫程序，实现网络爬虫的功能。2.《Python爬虫技术实战》：这本书介绍了
怎么用notepad++配置go语言开发环境
怎么用notepad++配置go语言开发环境1、下载go的zip文件。并且一定要把文件解压到c:go目录下。2、配置windows的高级环境变量。包括：GOROOT、GOOS、GOBIN、GOARCH。并且在path变量里面把c:go
小弟刚接触go语言，他的枚举类型怎么用？重在举例。。。。
Go语言没有枚举类型，这也是让很多人不解的地方。官方提供的方法是使用const { monday=0 tuesday=1..}枚举成员：用于声明新的枚举类型。是该枚举类型的命名常数。任意两个枚举成员不能具有相同的名称。每个枚举成员均具有相关
为什么要使用 Go 语言？Go 语言的优势在哪里
1、学习曲线它包含了类C语法、GC内置和工程工具。这一点非常重要，因为Go语言容易学习，所以一个普通的大学生花一个星期就能写出来可以上手的、高性能的应用。在国内大家都追求快，这也是为什么国内Go流行的原因之一。2、效率Go拥有接近C的运行效
宁波Python培训机构哪个好
想要参加Python培训的话，如果情况允许的条件下建议大家还是选择一线城市，北上广等地区去学习Python，首先Python培训的收费标准都是差不多的，无论是北京还是宁波没有太大的差异，其次价格虽然相同，但是教学质量存在差异，相对于来说一线
R语言作图plot函数以及参数设置解析
plot(x, y = NULL, type = "p",xlim = NULL, ylim = NULL, log = "", main = NULL, sub = NULL, xlab = N
为什么go语言适合开发网游服务器端
个人觉得golang十分适合进行网游服务器端开发，写下这篇文章总结一下。从网游的角度看：要成功的运营一款网游，很大程度上依赖于玩家自发形成的社区。只有玩家自发形成一个稳定的生态系统，游戏才能持续下去，避免鬼城的出现。而这就需要多次大量导入用
《R语言实战》自学笔记16-图形图例
数据准备函数：legend(location, title, legend, ....) 参数详解： x和y：用于定位图例，也可用关键词"bottomright", "bottom"
GO语言（二十九）：模糊测试（下）-
语料库文件以特殊格式编码。这是种子语料库和生成语料库的相同格式。下面是一个语料库文件的例子：第一行用于通知模糊引擎文件的编码版本。虽然目前没有计划未来版本的编码格式，但设计必须支持这种可能性。下面的每一行都
Java多线程实现异步调用
在JAVA平台实现异步调用的角色有如下三个角色:调用者提货单真实数据一个调用者在调用耗时操作不能立即返回数据时先返回一个提货单然后在过一断时间后凭提货单来获取真正的数据去蛋糕店买蛋糕不需要等蛋糕做出来（假设现做要很长时间）
C语言是高级语言是还低级语言
现在我从应用的角度，对C语言和其他高级语言作一下简单的比较。从掌握语言的难易程度来看，C语言比其它语言难一些。BASIC是初学者较好的入门语言，FORTRAN也比较好掌握。对科学计算多用FORTRAN语言；对商业和管理等数据处理领域，用CO
Go: WebSockets单元测试
WebSockets通过TCP连接提供客户端与服务器之间的双向即时通信。这意味着，我们可以维护一个TCP连接，然后发送和监听该连接上的消息，而不是不断地通过新建TCP连接去轮询web服务器的更新。在Go的生态中，WebSocket协议
c语言知识点有哪些？
c语言知识点有：1、C语言程序是由多个函数构成的。2、每个C语言程序中有且只有一个main函数。3、C语言不使用行号，无程序行的概念。4、程序中可使用空行和空格。5、C语言程序格式常用锯齿形书写格式。6、C语言程序中可加任意多的
java是做什么的啊
java就是计算机编程语言Java是一门面向对象编程语言，不仅吸收了C++语言的各种优点，还摒弃了C++里难以理解的多继承、指针等概念，因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表，极好地实现
什么游戏盒里JAVA游戏多
爱吾盒里JAVA游戏多。里面JAVA游戏应有尽有，可以迅速让你找回十多年前的味道，省去其他烦恼。设置好键位即可重温旧的回忆。爱吾游戏宝盒合集是由绿色小编精心收集的所有爱吾游戏宝盒软件内容，内含爱吾破解游戏宝盒，爱吾破解游戏宝盒旧版，爱吾游戏
java语言和.net语言的区别是什么？
.net不是一个语言，是一种平台就像java的jvm一样，它可以支持：asp.net C# 等等语言.net的生成借鉴了jvm的优势，它所支持的原生语言是C#，和java有很大的相似之处首先：编译结果都一样，都是中间代码，不是机器码其次：语
C语言的关于超市的代码
case '1':if (number1 - n &gt10)；这句中case后面的1不用打引号，直接跟数字就可以了，单引号一般用于其字符的ascll码，后面的几句case也是同一个问题可以用链表，大致就是，你创

推荐阅读

热门文章

最新发布

标签列表

如何用Python爬虫抓取网页内容?

给您推荐相同类型的内容：