如何入门 Python 爬虫?

2023-02-26 07:02:01Python016

如何入门 Python 爬虫?,第1张

零基础自学用Python 3开发网络爬虫(一)

http://blog.jobbole.com/77821/

零基础自学用Python 3开发网络爬虫(二): 用到的数据结构简介以及爬虫Ver1.0 alpha

http://blog.jobbole.com/77825/

零基础自学用Python 3开发网络爬虫(三): 伪装浏览器君

http://blog.jobbole.com/77830/

零基础自学用Python 3开发网络爬虫(四): 登录

http://blog.jobbole.com/77878/

然后还有一个比较有名的python爬虫框架 Scrapy

Scrapy 轻松定制网络爬虫

http://blog.jobbole.com/73115/

首先来说爬虫。

关于爬虫一个不太严谨的理解就是，你可以给爬虫程序设定一个初始的目标页面，然后程序返回目标页面的HTML文档后，从中提取页面中的超链接，然后继续爬到下一个页面中去。从这些页面的HTML文档中可以通过对标签的处理解析出你想要的具体内容。

所以我们可以这么来简单定义一个爬虫的工作过程：

抓取目标页面

解析页面文档获得目的信息

继续爬取下一个页面

存储结果

为了实现这些工作，你需要学习一些常用库的简单用法，包括但不限于：

urllib、urllib2、urllib.request、cookilib （Python的内置库，用来处理HTTP请求）

requests （第三方库，推荐使用requests来处理请求，比urllib方便一些）

re、beautifulsoup （正则表达式匹配内容、bs4解析html文档）

其次呢，因为你要跟网页的源码打交道，尤其是解析HTML文档，所以你最好对HTML和浏览器通信有点简单的了解，会使用Firebug查看源码定位信息在源码中的位置。

落实到题主给出的示例

http://www.zhihu.com/topic/19554091/questions?page=1

这是知乎数学话题全部问题的URL构成。可以看到我们只要修改最后的数字就可以访问到不同的页数。

数学话题下一共有1254页。所以你可以通过简单的对page做循环遍历获得所有问题。

（这种做法是直接构造了地址，或者你可以在爬取每一页以后从页面中得到下一页的链接，这样更像是一个爬虫）

《 Python for Informatics 》（中文翻译叫《信息管理专业Python教程》），这本书不仅是一本很好的Python爬虫方面的入门书，而且还有以这本书为教材的配套的Coursera课程。

爬虫页面你可以文档网络

# 上一篇：怎样学习GO语言？

# 下一篇：安装ruby环境，用mysql数据库，总是报错，调了一下午，网上方法都用了也不管事

给您推荐相同类型的内容：

python装在c盘,项目运行在d盘可以吗
可以。Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990年代初设计，作为一门叫做ABC语言的替代品。python装在c盘,项目运行在d盘是可以的。Python提供了高效的高级数据结构，还能简单有效地面向对象编程。Pytho
阿玛尼400是什么颜色口红
阿玛尼是国际知名彩妆品牌，在平时生活中经常看到有人喜欢使用阿玛尼的化妆品，阿玛尼400口红是它们家新推出的口红，颜色非常好看，很适合黄皮。阿玛尼400是什么颜色正红色，很显白，属于偏冷调的正红色，浅涂是蓝调偏梅子，重涂就是很浓郁的复古红，有
怎样用c语言画正弦函数
1、首先，打开VS2019，并且创建一个C语言源文件，会看到如下的页面。2、鼠标在下图红色圈所示的区域单击一下。3、之后，再按Enter键，会看到新的一行。4、在这一行中输入：#include&ltmath.h&gt。5、接
如何使用Ruby中的“split”方法
这个是将一串字符串转化成数组的方法(1) 在默认无参传入的时候，是以空格为间隔，获得数组pry(main)&gt " now's the time".split =&gt ["n
【接口测试】Go语言进行简单的接口测试
在正常的测试中，当我们需要进行接口测试时，通常使用接口调试工具，如postman进行接口测试目前我在尝试使用Go语言进行接口测试，使用的库均为Go自带的库。注：当前采用的接口为时事新闻接口，每天可以请求100次，需要的同学，可
python+Selenium之自动滑块破解滑块验证码
头大系列：以虎嗅网注册页面的滑块验证码为例：打开浏览器调试工具，点击左上角按钮进行页面元素跟踪，然后将鼠标移动到滑块验证码的图像上，就发现问题了，这也是关键所在：验证码的图像是由很多个这样的10x58（宽10高58）的小方块拼接
大家好我是ruby但是又不是ruby用英语怎么说
Hi,everbody!My name is Ruby,a girl of 14 years old.I study in class 7,grade 1 of No.8 Middle School,in Linyi.I
如何进行服务器的批量管理以及python 的paramiko的模块
最近对公司的通道机账号进行改造管理，全面的更加深入的理解了公司账号管理的架构。（注：基本上所有的机器上的ssh不能使用，只有部分机器能够使用。为了安全的角度考虑，安装的不是公版的ssh，而都是定制版的ssh，（限制了机器上的源IP地址即可）
python文件后缀是什么
python文件后缀总结：（1）.py：这通常是您编写的输入源代码。（2）.py3：Python3脚本（Python3脚本通常以.py而不是.py3结尾，很少使用）。（3）.pyc：这是编译好的字节码。如果导入一个模块，python将
python+Selenium之自动滑块破解滑块验证码
头大系列：以虎嗅网注册页面的滑块验证码为例：打开浏览器调试工具，点击左上角按钮进行页面元素跟踪，然后将鼠标移动到滑块验证码的图像上，就发现问题了，这也是关键所在：验证码的图像是由很多个这样的10x58（宽10高58）的小方块拼接
tf口红试色7号rubyrush和16号的区别？
TF黑管唇膏07Rubyrush颜色偏红，16号颜色更加偏橘色一些。TF黑管唇膏07Rubyrush更适合黄皮，而16号更适合白皮。TF黑管唇膏07Rubyrush经典的黑管包装低调奢华，暗红色的膏体在金色的口红管中也很搭。Rubyru
C语言有哪些取整函数？
C语言有以下几种取整方法：直接赋值给整数变量.如：int i = 2.5或 i = (int) 2.5 这种方法采用的是舍去小数部分使用floor函数.floor(x)返回的是小于或等于x的最大整数.如：floor(2.5) = 2fl
python 怎么取列表中最小的数
求一个列表中的最小值，可以用min函数。例如：li = [100,300,200,500,56,23,89]print("列表中的最小值是：",min(li)) 假设有字典列表 : 要求 price 的最大值与
如何使用golang实现微信支付的服务端
这类专业的技术问题涉及到了代码的层面，您在网上询问肯定是得不到完美的解决的，建议您可以下载一下开发者文档该文档在您申请了微信商家之后就可以下载的然后根据文档里面的技术规范进行调整和开发中行跨境GO支持支付方式：跨境GO目前支持的支付方式包括
python工程师一个月多少钱？
python工程师薪资一个月按工作经验来分：应届生无工作经验的Python工程师，薪资大概8K-10K；1-3工作经验的Python工程师，薪资大概10K-15K；3-5年工作经验的Python工程师，薪资大概15K-25K；5-10
c语言程序由哪三部分组成?
c语言程序由头文件、main函数、子函数和结构体组成的。1、头文件：头文件包含程序中要调用的库函数，程序中调用了某个库函数，程序开始时必须写上“#include或#include“头文件名”。2、main函数：程序的主体部分，实现算法的主干
RWBY的角色介绍
1，Ruby RoseRWBY队长，亦是本作的主角。有点天然呆，好奇心旺盛，并且敢于尝试各种大胆新奇的事物。古道热肠、富有正义感，对外人保持着友善关怀的心，能轻易打开胸怀接纳每一个人成为朋友和伙伴。很崇拜猎人和他们的生涯，并期望自己在将
python 传字符串到c的 dll
用ctypes，&gt&gt&gtfrom ctypes import *&gt&gt&gtlibc=cdll.msvcrt&gt&gt&gtlibc.printf(&
老男孩教育 python运维多少钱
比较靠谱的python学校建议选择【老男孩教育】！该学校python课程分为脱产班、周末班、网络班、直播班，费用6000-20000元不等，学员可根据自己的情况选择适合自己的班型，满足多样化的学习需求。而且该机构是行业内较早开设Python
如何用python实现网页自动登录
以登陆百度为例子，如下：import urllib,urllib2,httplib,cookielibdef auto_login_hi(url,name,pwd):url_hi="http:passport.baidu.co
鞋子牌子推荐
中国名牌鞋子鞋子品牌的标志是一种“视觉语言”。它通过一定的图案、颜色来向消费者传输某种信息，以达到识别品牌、促进销售的目的。鞋子品牌标志自身能够创造品牌认知、品牌联想和消费者的品牌偏好，进而影响鞋子品牌体现的品质与顾客的品牌忠诚度。因此，在
如何配置go语言开发环境
1.1 Go 安装Go的三种安装方式Go有多种安装方式，你可以选择自己喜欢的。这里我们介绍三种最常见的安装方式：Go源码安装：这是一种标准的软件安装方式。对于经常使用Unix类系统的用户，尤其对于开发者来说，从源码安装可以自己定制。Go标准
考研学校python有哪些
北京大学，清华大学，浙江大学，国防科技大学，北京航空航天大学，北京邮电大学，哈尔滨工业大学，上海交通大学，南京大学，华中科技大学，电子科技大学等168所。根据教育部学位与研究生教育发展中心发布计算机专业评估结果，全国共有168所开设计算机科
巧克力是什么东西做的
巧克力制作过程大致可分为两部分:一是可可豆的采收,二是可可豆的制作烘焙。可可树种在中庄园栽种、采收可可豆荚,每个豆荚约有20-40颗可可豆,取出可可豆再经发酵5-7天、乾燥5-7后,依可可豆品种、大小做分级分装。可可豆发酵过程会产生酸味,高
go语言适合做什么
Go语言主要用作服务器端开发。其定位是用来开发“大型软件”的，适合于需要很多程序员一起开发，并且开发周期较长的大型软件和支持云计算的网络服务。Go语言融合了传统编译型语言的高效性和脚本语言的易用性和富于表达性，不仅提高了项目的开发速度，而
go语言能做什么？
很多朋友可能知道Go语言的优势在哪，却不知道Go语言适合用于哪些地方。 1、 Go语言作为服务器编程语言，很适合处理日志、数据打包、虚拟机处理、文件系统、分布式系统、数据库代理等；网络编程方面。Go语言广泛应用于Web应用、API应
转行做程序员，究竟是学Java好？还是学Python好？
如果你问一名Java程序员，肯定会建议你先学Java，因为他们认为Python像个乳臭未干的黄毛小子。但如果你问Python程序员，可能会得到一个完全相反的答案，他们认为Java是刻板啰嗦的老大爷，而人生苦短，我用Python。首先我们要先
用C语言编写的小游戏代码是什么？
“猜数字小游戏”，每个数字后按空格，最后按回车确认#include&ltstdio.h&gt#include&ltstdlib.h&gt#include&lttime.h&gtint
Go语言做Web应用开发的框架，哪一个更适合入门
Revel Web开源框架个高效的Go语言Web开发框架, 其思路完全来自 Java 的 Play Framework。特点热编译，简单可选，同步(每个请求都创建自己的goroutine来处理。Go语言Web框架：beego一个用Go

推荐阅读

热门文章

最新发布

标签列表

如何入门 Python 爬虫?

给您推荐相同类型的内容：