python爬虫,怎么在爬段子的同时爬段子的附图?

Python024

python爬虫,怎么在爬段子的同时爬段子的附图?,第1张

首先:取到相应图片的url地址

然后:下载

①使用urllib urllib.urlretrieve(url, path) 进行下载保存

②使用 open() 二进制形式 读写文件

建议使用 第一种方式下载

本文来说说Python中的类与对象,Python这门语言是无处不对象,如果你曾浅要了解过Python,你应该听过Python是一种面向对象编程的语言,所以你经常可能会看到面向“对象”编程这类段子,而面向对象编程的语言都会有三大特征:封装、继承、多态。

我们平时接触到的很多函数、方法的操作都具有这些性质,我们只是会用,但还没有去深入了解它的本质,下面就介绍一下关于类和对象的相关知识。

封装这个概念应该并不陌生,比如我们把一些数据封装成一个列表,这就属于数据封装,我们也可以将一些代码语句封装成一个函数方便调用,这就是代码的封装,我们也可以将数据和代码封装在一起。用术语表示的话,就是可以将属性和方法进行封装,从而得到对象。

首先我们可以定义一个类,这个类中有属性和方法,但有的伙伴会比较好奇,属性和方法不是会封装成对象嘛,为什么又变成类了?举个例子,类就好比是一个毛坯房,而对象是在毛坯房的基础上改造成的精装房。

在类定义完成时就创建了一个类对象,它是对类定义创建的命名空间进行了一个包装。类对象支持两种操作:属性引用和实例化。

属性引用的语法就是一般的标准语法:obj.name。比如XiaoMing.height和XiaoMing.run就是属性引用,前者会返回一条数据,而后者会返回一个方法对象。

这里也支持对类属性进行赋值操作,比如为类中的weight属性赋予一个新值。

而类的实例化可以将类对象看作成一个无参函数的赋值给一个局部变量,如下:

ming就是由类对象实例化后创建的一个实例对象,通过实例对象也可以调用类中的属性和方法。

类在实例化过程中并不都是像上面例子一样简单的,一般类都会倾向将实例对象创建为有初始状态的,所以在类中可能会定义一个__init__的魔法方法,这个方法就可以帮助接收、传入参数。

而一个类如果定义了__init__方法,那么在类对象实例化的过程中就会自动为新创建的实例化对象调用__init__方法,请看下面这个例子。

可以看到在__init__()中传入了参数x和y,然后在print_coor中需要接收参数x和y,接下来通过实例化这个类对象,验证一下参数是否能通过__init__()传递到类的实例化操作中。

所谓继承就是一个新类在另一个类的基础上构建而成,这个新类被称作子类或者派生类,而另一个类被称作父类、基类或者超类,而子类会继承父类中已有的一些属性和方法。

比如上面这个例子,我并没有将list_定义成一个列表,但它却能调用append方法。原因是类Mylist继承于list这个基类,而list_又是Mylist的一个实例化对象,所以list_也会拥有父类list拥有的方法。当然可以通过自定义类的形式实现两个类之间的继承关系,我们定义Parent和Child两个类,Child中没有任何属性和方法,只是继承于父类Parent。

当子类中定义了与父类中同名的方法或者属性,则会自动覆盖父类对应的方法或属性,还是用上面这个例子实现一下,方便理解。

可以看到子类Child中多了一个和父类Parent同名的方法,再实例化子类并调用这个方法时,最后调用的是子类中的方法。Python中继承也允许多重继承,也就是说一个子类可以继承多个父类中的属性和方法,但是这类操作会导致代码混乱,所以大多数情况下不推荐使用,这里就不过多介绍了。

多态比较简单,比如定义两个类,这两个类没有任何关系,只是两个类中有同名的方法,而当两个类的实例对象分别调用这个方法时,不同类的实例对象调用的方法也是不同的。

上面这两个类中都有introduce方法,我们可以实例化一下两个类,利用实例对象调用这个方法实现一下多态。

判断一个类是否是另一个类的子类,如果是则返回True,反之则返回False。

需要注意的有两点:

判断一个对象是否为一个类的实例对象,如果是则返回True,反之则返回False。

需要注意的有两点:

判断一个实例对象中是否包含一个属性,如果是则返回True,反之则返回False。

需要注意的是第二个参数name必须为字符串形式传入,如果不是则会返回False。

Python 支持四种不同的数值类型:

整型(Int) - 通常被称为是整型或整数,是正或负整数,不带小数点。

长整型(long integers) - 无限大小的整数,整数最后是一个大写或小写的L。

浮点型(floating point real values) - 浮点型由整数部分与小数部分组成,浮点型也可以使用科学计数法表示(2.5e2 = 2.5 x 102= 250)

复数(complex numbers) - 复数由实数部分和虚数部分构成,可以用a + bj,或者complex(a,b)表示, 复数的实部a和虚部b都是浮点型。

在Phton中常见的运算加、减、乘、除、求余、幂指数等,同现实生活中的遵循一样的优先级。即,乘除运算高于加减运算。例:

Python内置复数的计算支持所有常见复数的计算,对复数处理的数学函数在模块cmath中:

字符串或串(String)是由数字、字母、下划线组成的一串字符。Python字符串最大的特点是 不可修改, 只能生成新的字符串,用 双引号或单引号 都可以表示字符串,多行字符串用三个连续单引号表示,特殊字符用转义符 “\" 表示如: 制表符"\t",换行符"\n"

>>>str='Hello World!'

>>>print  str*2   # 输出字符串两次

Hello World!Hello World!

>>>print  str+"TEST"   # 输出连接的字符串

Hello World!TEST

>>>len('str')   #输出字符串的长度

12

python的 字串列表 有2种取值顺序:

从左到右索引默认0开始的,最大范围是字符串长度少1

从右到左索引默认-1开始的,最大范围是字符串开头

如果你要实现从字符串中获取一段子字符串的话,可以使用变量 [头下标:尾下标] ,就可以截取相应的字符串,其中下标是从 0 开始算起,可以是正数或负数,下标可以为空表示取到头或尾。比如:

s = 'ilovepython'

s[1:5] 的结果是 love。

当使用以冒号分隔的字符串,python返回一个新的对象,结果包含了以这对偏移标识的连续的内容,左边的开始是包含了下边界。

上面的结果包含了s[1]的值l,而取到的最大范围不包括上边界,就是s[5]的值p。

'abcd'[3:1:-1]  #从右到左

'dc'

一些高级操作:

>>>s='You are my sunshine'

>>>s.split(' ')

['You' ,'are', 'my' ,'sunshine']

>>>t=['one','for','two']

>>>' '.join(t)

'one for two'

>>>t='Mike and Tom'

>>>t.replace('Tom','jane')

'Mike and jane'

python变量的概念和初中代数的方程变量一致,变量就像贴在东西上的标签,命名规则:大小写英文、数字和下划线,且不能用数字开头,变量可以反复赋值,而且可以是不同类型的变量

序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。

Python有6个序列的内置类型,但最常见的是列表和元组。

序列都可以进行的操作包括索引,切片,加,乘,检查成员。

此外,Python已经内置确定序列的长度以及确定最大和最小的元素的方法。

列表 是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。

列表的数据项不需要具有相同的类型

创建一个列表,只要把逗号分隔的不同的数据项使用方括号括起来即可。

>>>[]  #创建空的列表

[]

>>>list() #创建空的列表

[]

>>>alist=['physics','chemistry',1997,2000]

['physics','chemistry',1997,2000]

List(列表) 是 Python 中使用最频繁的数据类型。

列表可以完成大多数集合类的数据结构实现。它支持字符,数字,字符串甚至可以包含列表(即嵌套)。

列表用[ ]标识,是 python 最通用的复合数据类型。

列表中值的切割也可以用到变量[头下标:尾下标],就可以截取相应的列表,从左到右索引默认 0 开始,从右到左索引默认 -1 开始,下标可以为空表示取到头或尾。

>>>list=['runoob', 786, 2.23, 'john', 70.2]

>>>tinylist=[123, 'john']

>>>print list  # 输出完整列表

['runoob', 786, 2.23, 'john', 70.2]

>>>'runoob' in alist  #某个元素是否存在

True

>>>print list[0]   # 输出列表的第一个元素

runoob

>>>print list[1:3]   # 输出第二个至第三个元素

[786,2.23]

>>>print list[2:]   # 输出从第三个开始至列表末尾的所有元素

[2.23,'john',70.2]

>>>print tinylist*2   # 输出列表两次

[123,'john',123,'john']

>>>print list+tinylist   # 打印组合的列表

['runoob',786,2.23,'john',70.2,123,'john']

Python的元组 与列表类似,不同之处在于元组的元素不能修改。

元组使用小括号,列表使用方括号。

元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可。

>>>()  #创建空的元组

()

>>>tuple()  #创建空的元组

()

元组中只包含一个元素时,需要在元素后面添加逗号如:tup1=(50,)

>>>tup=(1,True,0.234,"holle")

同列表相似 元组 适用:

+ :链接两个元组

* :复制n次,生成新的元组

in :某个元素是否存在

[start:end:step] :切片

值得注意的是元组是不可以更新的( 不可变) 序列,但我们可以对元组进行连接组合生成新的元组如:

>>>tup1=(12,34.56)

>>>tup2=('abc','xyz')

>>>tup3=tup1+tup2

>>>print tup3

(12,34.56,'abc','xyz')

任意无符号的对象,以逗号隔开,默认为元组。

字典是另一种可变容器模型,且可存储任意类型对象。

字典的每个键值(key=>value)对用冒号( : )分割,每个对之间用逗号( , )分割,整个字典包括在花括号( {}) 中 ,格式如下所示:

d= {key1:value1,key2:value2}

键必须是唯一的,但值则不必。

值可以取任何数据类型,但键必须是不可变的,如字符串,数字或元组。

字典是可变类型,可以添加,删除,替换