他比如证券交易数据,天气数据,网站用户数据,图片。
拿到这些数据之后你就可以做下一步工作了。
我建议用scrapy,爬虫框架来爬取。三步就可以,其中第二步是核心
定义item类
开发spider类
开发pipeline
你可以在’疯狂python讲义‘第二十章学习爬虫
具体步骤
整体思路流程
简单代码演示
准备工作
下载并安装所需要的python库,包括:
对所需要的网页进行请求并解析返回的数据
对于想要做一个简单的爬虫而言,这一步其实很简单,主要是通过requests库来进行请求,然后对返回的数据进行一个解析,解析之后通过对于元素的定位和选择来获取所需要的数据元素,进而获取到数据的一个过程。
可以通过定义不同的爬虫来实现爬取不同页面的信息,并通过程序的控制来实现一个自动化爬虫。
以下是一个爬虫的实例