python爬虫入门教程

Python016

python爬虫入门教程,第1张

工具/材料

IELD(python 3.6.2),windows 7

01

首先打开IDLE,输入import requests模块,如果没有报错,就说明已经安装了这个模块,请跳过此步骤;如果报错,先打开命令行,win+r,弹出运行窗口,然后输入cmd,点击确定即可。

02

然后输入pip3 install requests 安装模块即可

03

然后在IDLE窗口中输入如下图所示的命令

04

在浏览器中输入https://zhinan.sogou.com/,就可以打开网页,这时点击鼠标右键,然后点击查看网页源代码,就可以发现,打印的结果和在浏览器中看到的源代码是一样的

入门的话,我的经历:

1.先用python写一个爬取网页源代码的爬虫(最先是爬取个人博客,会遇到乱码问题当时困扰了很久)

2.后来写了爬取百度图片的程序,自动下载小说(我爱看小说-_-)(接触正则表达式)

3.然后百度图片他那种分页模式,一般一页只有20张左右的图片,分析源代码,完善爬取程序,不受到限制,一次可以下几千张(图片有的是原图,有的是缩略图)

4.后来发现程序卡顿,就添加了多线程。

5.然后模拟登陆一些不用验证码的网页(我学校的oj),cookie登陆B站(本来想写一个抢楼的脚本的,后来发现抢楼的被封号了-_-,就放弃了)

对于使用的库,python2 与 python3 有点不同,我学的是python3

先用的是urllib.request,后来用requests(第三方库),在后来接触Scrapy(也是第三方库)

现在因为事情多了,就把python放下了,准备寒假写一些脚本,毕竟python不会有期末考试...

我的个人经历,希望可以帮到你。