如何入门 Python 爬虫

Python011

如何入门 Python 爬虫,第1张

我也正在学,推荐参考书:《Python网络数据采集》

在这之前应该有一定的Python基础,了解一下网络数据格式

本书内 容 提 要

本书采用简洁强大的 Python 语言,介绍了网络数据采集,并为采集新式网络中的各种数据类

型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理 :如何用 Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。

本书适合需要采集 Web 数据的相关软件开发人员和研究人员阅读。

爬虫的基本流程

发起请求

通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应

获取响应内容

如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型

解析内容

得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理

保存数据

保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件

具体步骤

整体思路流程

简单代码演示

准备工作

下载并安装所需要的python库,包括:

对所需要的网页进行请求并解析返回的数据

对于想要做一个简单的爬虫而言,这一步其实很简单,主要是通过requests库来进行请求,然后对返回的数据进行一个解析,解析之后通过对于元素的定位和选择来获取所需要的数据元素,进而获取到数据的一个过程。

可以通过定义不同的爬虫来实现爬取不同页面的信息,并通过程序的控制来实现一个自动化爬虫。

以下是一个爬虫的实例