python爬虫入门教程

2023-02-26 07:03:01Python022

python爬虫入门教程,第1张

工具/材料

IELD(python 3.6.2)，windows 7

首先打开IDLE,输入import requests模块，如果没有报错，就说明已经安装了这个模块，请跳过此步骤；如果报错，先打开命令行，win+r，弹出运行窗口，然后输入cmd，点击确定即可。

然后输入pip3 install requests 安装模块即可

然后在IDLE窗口中输入如下图所示的命令

在浏览器中输入https://zhinan.sogou.com/，就可以打开网页，这时点击鼠标右键，然后点击查看网页源代码，就可以发现，打印的结果和在浏览器中看到的源代码是一样的

【系列前言】前段时间李响同学入门了一些Python的基础知识，觉得一直在IDLE里print一些算法题有一些枯燥，所以决定通过学习爬虫来提高自己的兴趣。而且最近确实有一些重复性劳动，想使用爬虫简化工作。遂打算边自学边写自己自学的过程，一方面作为小白的我可以和其他Python大神交流，一方面也可以以此监督自己。

【本人使用Python版本：2.7.5】

首先按理解一下爬虫（Spider），如果把一个站点比作一张纵横交错的蜘蛛网，那么我们爬虫要做的就是在这张网上爬来爬去，获得这张网上的信息和资源。而Web上每种资源，比如HTML文档、图片、视频等都由一个URI（Universal Resource Identifier，通用资源标志符)进行定位。 URL（Uniform Resource Locator，统一资源定位符）是URI的子集。采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。而爬虫主要的处理对象就是URL。所以务必要对URL有一定的熟悉。

URI通常由三部分组成：

1.访问资源的命名机制；

2.存放资源的主机名；

3.资源自身的名称，由路径表示。

URL的格式由三部分组成：

1.第一部分是协议(或称为服务方式)。

2.第二部分是存有该资源的主机IP地址(有时也包括端口号)。

3.第三部分是主机资源的具体地址，如目录和文件名等。

知乎：HTTP 协议中 URI 和 URL 有什么区别？@西毒的回答

最近在搞挑战杯可能会有点忙，但还是希望自己能按照计划学习，定期更新此系列。

年前学习python基础知识之后，在好奇心的推动下，我开始接触了python网络爬虫，而在刚开始接触网络爬虫时，繁多的资料让我猝不及防，对于习惯于优先通过书籍进行自主学习的我来说，通过长期看视频学习反而不是很习惯，但是在网络上找到的许多爬虫相关资料，不是说的过于简略，就是部分内容有些“过时”。该跟谁走？该怎么走？这个问题那段时间一直困扰着我。

所幸，在热心群友的推荐下（haha，真的很热心的一个老哥），我入手了崔大写的《Python3网络爬虫开发实战（第二版）》，找到了符合我状况的“引路书”。

初入手，书籍就令我惊讶，920页左右的厚度，在我之前买过的相关书籍中，厚度也能算是前几名，比实际想象的厚许多。

而当我翻开目录，可以发现，与学科领域的“大部头”专著相比（读过几本，看那种书真的蛮痛苦的hh），这本书的结构层次分明，由浅入深、层层递进，由爬虫基础引入，再向各方面延伸，刚好满足了我“半个小白”状态的学习需要（经过近2个月的学习感觉也确实真的适合我）。

而在书的内容之外，不得不提的是，崔大的Scrape平台。崔大的Scrape平台合理的解决了爬虫入门者实战训练的“场地”问题，防止了初步入门者无知的迈入了著作权的“灰色地带”，这种提供练习平台的爬虫教学，确实也我第一次遇到的，我对崔大的用心感到真心佩服。

简要的介绍到这里就结束了！目前我已经跟随崔大的这本书学习了两个月，受益匪浅，掌握了蛮多的技能。

总之，如果想跟随较新的爬虫教程学习，基础跟我相似的同学，我认为崔大的《Python3网络爬虫开发实战（第二版）》是入门爬虫绝不容错过的一本书！

爬虫资源入门然后网络

# 上一篇：抖音围棋张指导是哪位棋手

# 下一篇：c语言修仙txt网盘全文谢谢！