一、数字型
Python数字类型主要包括int(整型)、long(长整型)和float(浮点型),但是在Python3中就不再有long类型了。
1、int(整型)
在32位机器上,整数的位数是32位,取值范围是-231~231-1,即-2147483648~214748364在64位系统上,整数的位数为64位,取值范围为-263~263-1,即9223372036854775808~9223372036854775807。
2、long(长整型)
Python长整型没有指定位宽,但是由于机器内存有限,使用长的长整数数值也不可能无限大。
3、float(浮点型)
浮点型也就是带有小数点的数,其精度和机器有关。
4、complex(复数)
Python还支持复数,复数由实数部分和虚数部分构成,可以用 a + bj,或者 complex(a,b) 表示, 复数的实部 a 和虚部 b
都是浮点型。
二、字符串
在Python中,加了引号的字符都被认为是字符串,其声明有三种方式,分别是:单引号、双引号和三引号Python中的字符串有两种数据类型,分别是str类型和unicode类型,str类型采用的ASCII编码,无法表示中文,unicode类型采用unicode编码,能够表示任意字符,包括中文和其他语言。
三、布尔型
和其他编程语言一样,Python布尔类型也是用于逻辑运算,有两个值:True(真)和False(假)。
四、列表
列表是Python中使用最频繁的数据类型,集合中可以放任何数据类型,可对集合进行创建、查找、切片、增加、修改、删除、循环和排序操作。
五、元组
元组和列表一样,也是一种序列,与列表不同的是,元组是不可修改的,元组用”()”标识,内部元素用逗号隔开。
六、字典
字典是一种键值对的集合,是除列表以外Python之中最灵活的内置数据结构类型,列表是有序的对象集合,字典是无序的对象集合。
七、集合
集合是一个无序的、不重复的数据组合,它的主要作用有两个,分别是去重和关系测试。
定义:集合是多个元素的无序组合
特点:集合类型与数学中的集合概念一致,几何元素之间无序、每个元素唯一、不存在相同元素,几何元素不可更待、不能存在可变数据类型。
非可变数据类型:整数、浮点数、复数、字符串类型、元组类型等
表示:{},元素间用,分隔
建立:{} 或者set{},建立空集合必须使用set{}
举例:
基本操作符:
增强操作符:
实例:
A-B
{123}
B-A
{'3','1','2'}
A&B
{'p','y'}
A|B
{'1','p','2','y','3',123}
A^B
{'2',123,'3','1'}
p123y
A
set()
1.包含关系比较:
True
False
2.数据去重
{'p','y',123}
['p','y',123]
定义:序列是具有先后关系的一组元素
特点:序列是一维元素向量,元素类型可以不同,元素可以相同:类似数学元素序列:元素间有序列引导,通过下标访问序列的特定元素
序列是一个基类类型,衍生为:字符串类型、元组类型、列表类型
序号的定义:正向递增序号、反向递减序号,与字符串中相似。
['.io',123,'python']
'oi.321nohtyp'
序列类型的通用函数和方法:
3
'y'
定义:元组类型是序列类型的一种扩展,一旦创建就不能修改
形式:元组使用()或者tuple()创建,元素之间用逗号分隔:小括号使不使用都可以。
举例:
('cat','dog','tiger','human')
(4352,'bule',('cat','dog','tiger','human'))
元组类型继承序列类型全部通用操作:操作符、处理函数、处理方法
元组类型创建后不能修改,因此没有特殊操作
('human','tiger',dog','cat')
'tiger'
定义:列表是序列类型的一种扩展,创建后其中的元素可以被随意修改
使用:[]或者list()创建,元素间可以用逗号隔开,列表中各元素类型可不同,无长度限制
['cat','dog','tiger',1024]
['cat','dog','tiger',1024]
列表类型操作函数及其方法:
['cat',1,2,3,4,'tiger',1024]
修改列表:
练习:
序列:元组和列表两种重要类型
应用场景:元组用于元素不改变的场景,更多用于固定搭配场景:列表更加灵活,它是最常用的序列类型
作用:表达一组有序数据并且处理问题;数据保护
元素遍历:
元组类型:
数据保护:不希望数据被程序所改变,转换成元组类型
('cat',1,2,3,4,'tiger',1024)
基本统计值需求:给出一组数并且理解
定义:总个数、求和、平均值、方差、中位数...
总个数:len()
求和:for...in
平均值:求和/总个数
方差:各数据与平均数差的平方的和的平均数
中位数:排序,然后... 奇数找中间一个,偶数中间两个的平均
映射:是一种索引和数据的对应关系,也是键和值的对应关系。
映射类型:由用户数据为定义索引
字典类型:数据的组织与表达的一种新的形态,是映射的体现。
键值对:键是数据索引的扩展,字典是键值对的集合,键值对间无序。
生成:{}和dict()创建,键值对之间用冒号:表示
举例:{<键1>:<值1>,<键2>:<值2>,...,<键n>:<值n>}
在字典变量中,通过键获得值:
<字典变量>={<键1>:<值1>,...,<键n>:<值n>}
<值>=<字典变量>[<键>]
<字典变量>[<键>]=<值>
用[]来向字典中增加或者索引键值对
举例:
'北京'
生成空字典:
de={}type(de)
<class 'dict'>
type(x) 返回变量x的类型
举例:
True
dict_keys(['中国','美国','法国])
dict_values(['北京','华盛顿','巴黎'])
实例:
'北京'
'伊斯兰堡'
('中国','北京')
练习:
1.映射的表达:映射无处不在,键值对也无处不在,统计数据出现的次数,数据是键,次数是值。
字典的主要作用:表达键值对的数据进而操作他们
2.元素遍历:
for k in d:
<语句块>
定义:jieba库是优秀的第三方中文分词库,需要额外安装
安装方法:(cmd命令下)pip install jieba
作用:利用中文词库确定汉字间的关联概率,字间概率大的组成词组,形成分词效果,用户还可以向其中自定义的添加词组。
分类:精确模式、全模式、搜索引擎模式
精确模式:将词组精确的分开,不存在冗余单词
全模式:将所有可能的词组都扫描出来,有冗余
搜索引擎模式:在精确模式的基础上,将长词再次切分
举例:
['中国','是','一个','伟大','的','国家']
['中国','国是','一个','伟大','的','国家']
['中华','华人','人民','共和','共和国','中华人民共和国','是','伟大','的']
需求:一篇文章中出现的词的频率统计
分类:英文文本,中文文本
举例:
英文:哈姆雷特(hamlet)
中文:三国演义(threekingdoms)
Python基本数据类型一般分为:数字、字符串、列表、元组、字典、集合这六种基本数据类型。
其中数字又包含整型(整型又包括标准整型、长整型(Python2.7及之前版本有))、浮点型、复数类型、布尔型(布尔型就是只有两个值的整型)、这几种数字类型。列表、元组、字符串都是序列。
1、数字
数字类型是不可更改的对象。对变量改变数字值就是生成/创建新的对象。Python支持多种数字类型:
整型(标准整型和长整型(Python2.7及之前的有这种类型))、布尔型、双精度浮点型、十进制浮点型、复数。
2、标准整型
int,标准整型,在大多数32位机器上标准整型取值范围是-2^31到2^31-1,也就是-2147483648~2147483647,如果在64位机器使用64位编译器,那么这个系统的标准整型将是64位。
3、布尔型
bool,从Python2.3开始Python中添加了布尔类型。布尔类型有两种True和False。对于没有__nozero__方法的对象默认是True。
对于值为0的数字、空集(空列表、空元组、空字典等)在Python中的布尔类型中都是False。
>>> bool(1)
True
>>> bool('a')
True
>>> bool(0)
False
>>> bool('')
False
4、浮点型
float,每个浮点型占8个字节(64位),完全遵守IEEE754号规范(52M/11E/1S),其中52个位用于表示底,11个位用于表示指数(可表示的范围大约是±10**308.25),剩下的一个位表示符号。这看上去相当完美,然而,实际精度依赖于机器架构和创建Python解释器的编译器。
浮点型值通常都有一个小数点和一个可选的后缀e(大写或小写,表示科学计数法)。在e和指数之间可以用正(+)或负(-)表示指数的正负(正数的话可以省略符号)。
以上是Python核心编程的对浮点型(双精度浮点型)的说明。经过Python实测浮点型默认长度是24字节如果超出这个范围会自动
5、复数类型
complex,在复数中虚数不能单独存在,它们总是和一个值为0.0的实数部分一起来构成一个复数。复数由实数部分和虚数部分构成。表示虚数的语法:real+imagj。
实数部分和虚数部分都是浮点型。虚数部分必须有后缀j或J。