python爬虫入门教程

2023-02-23 17:30:01Python016

python爬虫入门教程,第1张

工具/材料

IELD(python 3.6.2)，windows 7

首先打开IDLE,输入import requests模块，如果没有报错，就说明已经安装了这个模块，请跳过此步骤；如果报错，先打开命令行，win+r，弹出运行窗口，然后输入cmd，点击确定即可。

然后输入pip3 install requests 安装模块即可

然后在IDLE窗口中输入如下图所示的命令

在浏览器中输入https://zhinan.sogou.com/，就可以打开网页，这时点击鼠标右键，然后点击查看网页源代码，就可以发现，打印的结果和在浏览器中看到的源代码是一样的

入门的话，我的经历：

1.先用python写一个爬取网页源代码的爬虫（最先是爬取个人博客，会遇到乱码问题当时困扰了很久）

2.后来写了爬取百度图片的程序，自动下载小说（我爱看小说-_-）（接触正则表达式）

3.然后百度图片他那种分页模式，一般一页只有20张左右的图片，分析源代码，完善爬取程序，不受到限制，一次可以下几千张（图片有的是原图，有的是缩略图）

4.后来发现程序卡顿，就添加了多线程。

5.然后模拟登陆一些不用验证码的网页（我学校的oj），cookie登陆B站（本来想写一个抢楼的脚本的，后来发现抢楼的被封号了-_-，就放弃了）

对于使用的库，python2 与 python3 有点不同，我学的是python3

先用的是urllib.request，后来用requests（第三方库），在后来接触Scrapy(也是第三方库)

现在因为事情多了，就把python放下了，准备寒假写一些脚本，毕竟python不会有期末考试...

我的个人经历，希望可以帮到你。

然后源代码我的的是爬虫

# 上一篇：c语言中取余%怎么用

# 下一篇：go语言中fmt.Println(s0==nil)什么意思？

给您推荐相同类型的内容：

《Python基础教程（第2版）》pdf下载在线阅读，求百度网盘云资源
《Python基础教程（第2版）》MagnusLieHetland电子书网盘下载免费在线阅读链接: https:pan.baidu.coms135Rn6OL8EsybwtjhsNu5Zw密码：20m9 书名：Python基础教程
Go语言怎么样？
根据Go趋势报告显示，全球范围内有 110 万专业开发者选择Go作为其主要开发语言。如果把以其他编程语言作为主要开发语言，同时也在使用Go的开发者计算在内，这一数字将高达270万，中国的Go语言开发者排名第一，全球占比超过16%。Go 语
Python3 sort()函数与sorted()函数排序
Python使用过程随记~ sort()函数与sorted()函数的区别： sort是list的方法，而sorted可以对所有可迭代对象进行排序（字典，元组等）； sort方法返回的是对已经存在的列表进行操作，会改变原有列表的值
猫武士人物简介
1，火星（Firestar)外表英俊的公猫，有着一身如火焰般的姜黄色毛发，眼睛为绿色。最初是名叫拉斯特的宠物猫，他的父亲是杰克（宠物猫），母亲是肉豆蔻（宠物猫），与同父异母的兄弟姐妹有长鞭(Scourge)、短袜(Socks)、红宝石(R
用R做时间序列分析，画出来的自相关图和偏自相关图都是小数阶数，怎么分析他们是截尾还是拖尾呢？急
看拖尾还是截尾主要是看收敛的趋势是像被切了一刀一样突兀的还是缓慢的。。实话说，这两张图都不是太干净（就是lag不好判断，acf 的图勉强可以算是lag = 2吧？pacf的图不好判断）。。建议做一个eacf 的表辅助判断模型，或者是用inf
go语言没有定义io.stringwriter
没有定义。Go语言特点1、函数式编程闭包。2、工程化资源管理，错误处理，测试无参，也没有定义返回值声明以后是import语句，引入要的模块。原文链接： https:mp.weixin.qq.comsgW_3JD52rtRdEqXvy
go语言中fmt.Println(s0==nil)什么意思？
对于某些类型的变量，如指针、切片、map、接口、通道、函数等，如果从未为它赋过值，则它将具有默认值nil。这句代码的意思就是，如果s0未初始化过，就打印true，否则打印false。一.几种公共方法 1)Print: 输出到控制台(
ruby regexp怎么匹配uuid字符串
编译string后生成并返回一个正则表达式对象。若第二参数是Fixnum的话，其值可以任选下列中的若干项Regexp::IGNORECASERegexp::MULTILINERegexp::EXTENDED若第二参数并非Fixnum，则被看
C语言编程题
1.将程序段填充完整（实现12个月每个月天数的输出）case 1: case 3: case 5: case 7: case 8: case 10: case 12: days=31breakcase 4: case 6: case 9:
【c++ 课程设计】简单的网络嗅探器目的与要求：实现网络层抓包，并对获得包的源和目的地址、端口、协议等
#include &ltwinsock2.h&gt*windows socket的头文件，系统定义的*#include &ltwindows.h&gt#include &ltws2tcp
最小二乘法到底是计算哪个距离最短
黄老师在《数据分析、展现与R语言》第三课第三个视频14分钟时是说，距离是点做平行于Y轴的直线到拟合直线的距离。然后选离所有点的距离最短的那条直线。魏老师在《DOE技术及应用》第二课第一个视频中又说，距离是点到拟合直线的垂直距离。然后选离所有
电脑不用键盘怎么打字？
有鼠标无键盘，在计算机上打字的方法x0dx0a步骤：x0dx0a右键点击任务栏空白处 - 工具栏，左键点击：触摸键盘；x0dx0ax0dx0a这时在任务栏就会显示触摸键盘图标，我们左键点击：触摸键盘图标；x0dx0a
怎么样调整电脑屏幕大小到合适的比例？
调整电脑屏幕大小到合适比例的方法：首先右键点击桌面，在右键菜单中直接显示了屏幕分辨率的选项，用鼠标点击一下这个选项在分辨率设置选项页面中，有一个分辨率的选项，点击一下这个选项，上面默认显示的数值是你现在的屏幕的分辨率。点击之后出现了一系列的
Ruby字节数组转换为十六进制字符串
str = "Ruby"str.split().each {|e|print (e.unpack('H*').to_s + "n")}#irb# 52# 75# 62# 79
vuejava防止重复创建订单
vuejava防止重复创建订单的步骤：1、创建订单时，用订单信息计算一个哈希值。2、判断redis中是否有key，有则不允许重复提交。3、没有则生成一个新key，放到redis中设置个过期时间即可。springmvc 判断重复提交有很多方式
go 语言中的 rune
rune是Go语言中一种特殊的数据类型,它是int32的别名,几乎在所有方面等同于int32,用于区分字符值和整数值，官方解释如下：下面我们通过一个例子来看一下：我们猜测一下结果，hello5 个字符+1 个空格+3 个汉子，算
电脑显示屏怎么清洁显示器可以用什么东西擦
1、用一般软布或纸巾来擦拭液晶屏幕。千万不能用一般软布（如眼镜布）或纸巾来擦拭液晶屏幕，对于柔软的液晶屏幕而言，它们的表面还是太粗糙了，很容易划伤娇气的液晶屏幕。2、用清水清洁液晶屏幕。使用清水清洁时，液体极易滴入液晶电视内部，
$在Java中什么意思 Math.abs(x)及同类的的公式$
在Java中什么意思 Math.abs(x)及同类的的公式
该方法返回x的绝对值，x的取值可以是各种类型参数。Math.abs(x)=|x|；如果参数是非负数，则返回该参数。如果参数是负数，则返回该参数的相反数。特殊情况是：如果参数是正零或负零，那么结果是正零。如果参数是无穷大，那么结果是正
r语言segmentcn怎么同时处理多个文本
while (rs.next()) {Bars bar = new Bars()bar.setId(rs.getLong("id"))bar.setName(rs.getString("name"))
Python语言做什么的
Python语言是一种面向对象的动态类型语言。Python语言最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。作为一种解释型脚本语言，可以在以下方面加以应用：1、图
进口干红有哪些知名品牌？
一、酿酒葡萄的品种葡萄为（Ampelidecese）科，所有酿酒葡萄品种均属于（Ampelidecese）的10个科属中的（Vitis）科属，其中又以（Vitis Vinifera）种最为重要，因为全球的葡萄酒有99.99%均是使用（V
c语言清屏函数
使用系统(CLS)头文件stdlib的简单示例。h #包括&ltstdio。h &gt#包含&ltstdlib。h &gtint main () {printf ("Hello World! &qu
R语言常用函数（基本）
vector：向量 numeric：数值型向量 logical：逻辑型向量 character；字符型向量 list：列表data.frame：数据框 c：连接为向量或列表 sequence：等差序列 rep：重复 length
java软件开发的代码规范
1、组织与风格(1).关键词和操作符之间加适当的空格。(2).相对独立的程序块与块之间加空行(3).较长的语句、表达式等要分成多行书写。(4).划分出的新行要进行适应的缩进，使排版整齐，语句可读。(5).长表达式要在低优先级操作符处划分新行
python的正则表达式
1,正则表达式的一些内容正则表达式主要是用来匹配文本中需要查找的内容,例如在一片文章中找出电话号码,就中国的来说11位纯数字(不说座机),则使用"d{11}" 意味匹配数字11次,就能准
英语高手进
1-学校的工作让她很忙碌，所以她每天在户外跟狗玩的时间只有半小时2－她每天最开心的时刻就是每天放学回家的时候meimei（一定是狗的名字）跳到她身上3－Ruby Cooper（人名）关于家庭的定义要改变了，并且她还不是很确定那意味着什么4，
java中的find 方法与looking at方法有什么区别
你说的都是Matcher上的方法，其中matches()方法用来判断整个输入字符串是否匹配（正则表达式），而lookAt()方法则是用来判断该字符串（不必是整个字符串）的开始部分是否能够匹配模式，当且仅当输入序列的前缀匹配此匹配器的模式时才
GO语言（十三）：使用 Go 和 Gin 开发 RESTful API（下）
当客户端在发出POST请求时albums，您希望将请求正文中描述的专辑添加到现有专辑数据中。为此，您将编写以下内容：1、编写代码a.添加代码以将专辑数据添加到专辑列表。在此代码中： 1）用于Con
我想要问下电脑编程学到哪里可以做游戏
看你是做着玩还是想搞专业。。如果是做着玩，网上有一些简单实用的软件。。建议自己去搜搜。而如果你想创业。。那么还要看你做3D还是2D。。而且游戏并不是一个人的力量能完成的。。学到哪可以做游戏。。还是要看你要做什么程度的游戏了。。建议自己到书店
怎样安装JAVA?
Java 语言跨平台可以在各大主流操作系统运行：windows、linux、macJava 主要特性简单面向对象、多线程、可移植分布式、健壮、安全、高性能Java 程序执行Java代码编译成字节码：".Java&q

推荐阅读

热门文章

最新发布

标签列表

python爬虫入门教程

给您推荐相同类型的内容：