python常见数据类型

2023-04-28 12:04:01Python018

python常见数据类型,第1张

一,python整数类型所表示的数据。 1,一般用以表示一类数值:所有正整数,0和负整数2,整型作为最常用的,频繁参与计算的数据类型，在python3.5中解释器会自动在内存中创建-5-3000之间的（包含5，不包含3000）整型对象，也就是说在该范围内,相等都是同一个已经创建好的整型对象。范围之外的即使相等也表示不同对象，该特性随python版本而改变，不要过于依赖。 3,bool型继承了int型，他是int的子类。 4,Python2中有长整型long，数值范围更大，在python3中已取消，所有整型统一由int表示。 5,参与所有数值计算，数学运算，科学计算。这也是所有编程语言都有的数据类型，因为编程语言生而需要模拟人的思维，借助数学方式，自动计算、更好的解决大量重复性的事务，因此数值类型、整数类型在编程语言中不可或缺。 6,支持二进制(0b\0B开头),十进制,八进制(0o\0O),十六进制(0x\0X)二，python整数和浮点型支持常规的数值运算整数和浮点数都可参与的运算：+ - * / %（取余） //（整除） **（幂）Python字符型：python字符型表示的数据：python3支持Unicode编码，由字母、数字和符号组成的形式就叫字符串，更接近或者相同与人们文字符号表示，因此在信息表示和传递时它也是最受认可的形式。在程序编写中也是非常常用，对应的可操作的方法也很多，很有意思。字符串不可被修改，可以拼接等方法创建新字符串对象；支持分片和下标操作；a[2:]支持+拼接，*重复操作和成员关系in/not in；表示形式：用单引号双引号包含起来的符号；a = str(‘sdfsdfsdf’) 或 r’\t\nabcd’ 原始字符，Bytes：b’abcd’；6,字符串属于不可变数据类型，内部机制为了节省空间，相同的两个字符串表示相同的一个对象。a = ‘python’ b = ‘python’ a is b :True二, 字符串支持的运算方法 1,capitalize() :首字母大写后边的字母小写 a = ‘abcd’ b = a.capitalize() b:Abcd 2,casefold() lower():字母转换为全小写 3,center(width,fillchar) :居中，width填补的长度；fillchar添加的字符 a = a.center(10,’_’) //’____abcd____’ 默认无fillchar填充空格 4,count(sub,star,end) :字母计数：sub要查询的字符 5,encode(encoding=’utf-8’,errors=’strict’) 设置编码 Errors :设置错误类型 6,endswith(suffix,star,end) : 若以suffix结尾返回True 7，expandtabs(8) :设置字符串中tab按键符的空格长度：’\tabcde’ 8,find(sub,star,end) : 返回指定范围内的字符串下标，未找到返回-1 9，index(sub,star,end) :返回指定范围字符串下标未找到抛出异常 10，isalnum() :判断字符串是否是字母或数字，或字母和数字组合 11，isalpha() :判断是否全是字母 12，isdecimal() :判断字符串是否是十进制数值 13，isdigit() :判断字符串是否是数字 14，isidentifier() :判断字符串中是否包含关键字 15，islower() :判断是否全小写 16，isnumeric() :判断全是数字 17，isspace():判断是否是空格 18，isupper()判断是否大写 19，istitle() :判断是否首字母大写 20，join(iterable) :把可迭代对象用字符串进行分割：a.join(‘123’) 21,ljust(width,fillchar)rjust() :左对齐右对齐 22, upper() :将字符串改为大写 23，split(sep=None,maxsplit=-1) :分割一个字符串，被选中字符在字符串中删除 ‘ab1cd1efg’.split(‘1’) :[‘ab’,’cd’,’efg’]三，字符串格式化：按照规格输出字符串format(*args,**kwargs) :args位置参数，kwargs关键字参数‘{0:.1f}’.format(123.468) :格式化参数，小数点后保留1位四舍五入四，字符串操作符% 1，%s :格式化字符串 ‘abcd%sdef’%’dddd’ 2，%d:格式化整数 3，%o格式化无符号八进制 4，%x格式化无符号十六进制 5，%f格式化定点数 6, %e: 科学计数法格式化定点数 7，%g 根据值大小自动选%f,%e 8, %G E X :大写形式五，格式化辅助命令： m.n :m最小总宽度，n小数点后位数：’%12.4f’%23456.789六，转义字符：字符串前r避免转义：r’\nhello\thi’\n:换行符\t:横向制表符\':'\":"\b:退格符\r:回车\v:纵向制表符\f:换页符\o,\x:八进制和十六进制\0:空字符串Python列表list一，Python的列表list类型表示的数据：Python列表在cpython中被解释为长度可变的数组，用其他对象组成的连续数组。列表中元素可以是相同或不同的数据类型；当列表元素增加或删除时，列表对象自动进行扩展或收缩内存，保证元素之间没有缝隙，总是连续的。Python中的列表是一个序列，也是一个容器类型创建列表：a = []b = [1,’python’]c = list()d = list((1,3,4,5))支持切片操作list[start,stop,step]python列表常用方法1,append添加单个元素：list.append(object) //a.append(‘python’)2,extend添加可迭代对象: list.extend(iterable) //a.extend(‘abcde’/[1,2,3])3,insert 插入元素：list.insert(index,object): 在index下标前插入元素//a.insert(2,’python’)4,clear 清空所有元素：list.clear() //a.clear()5,pop 删除并返回一个元素：list.pop(index) //默认删除默认一个元素remove 删除指定元素：list.remove(v) ,v元素不存在报错 //a.remove(‘c’)7，count 返回这个值在列表中数量：list.count(value)8,copy 浅拷贝一个新列表：list.copy()9,sort:排序list.sort(reverse=False/True) :默认升序排序函数：sorted(list)10，reverse: 原地翻转：list.reverse()11，index(value,star,stop) :指定范围内该值下标：list.index(2,0,5)列表元素访问：下标访问：list[1]For循环遍历通过下标修改元素：list[2 ] = ‘hello’列表常用运算符：1,比较运算符：从第一个元素开始对比2，+ 拼接一个新列表：l1+ l23, 重复操作符：* ,多个列表拼接成员关系操作符：in/ not in 逻辑运算符：and not or列表常用的排序方法：冒泡排序；选择排序；快速排序；归并排序Python元组tuple一，Python元组tuple数据类型表示的数据：元组是受到限制的、不可改变的列表；可以是同构也可以是异构；元组是序列类型、是可迭代对象，是容器类型。元组的创建: a = (1,2,3)或a=1,2,3b = tuple()c = tuple(iterable)支持切片操作tuple[start,stop,step]二，python元组常用方法 1,index(value,star,stop) :指定范围内该值下标：tuple.index(2,0,5) 2,count(value) ：值出现次数三，支持运算： 1,比较运算符：从第一个元素开始对比2，+ 拼接一个新元组：l1+ l23, 重复操作符：* ,多个元组拼接4成员关系操作符：in/ not in逻辑运算符：and not or四，元组的访问下标操作；For循环遍历访问。Python字典类型一,Python字典dict表示的数据：{key:value}可根据关键字：键快速索引到对应的值；字典是映射类型，键值对一一对应关系，不是序列；字典元素是无序的；字典是可迭代对象，是容器类型；字典的创建：k = {}k1={‘keyword’:object}k2 = dict()K3 = dict(mapping)dict=(iterable)二，字典的访问：通过key：k[‘key’] 修改key对应的值：K[‘key’] = value For循环遍历出来的是key； For循环键值对：for I in d.items(): For 循环enumerate: for k,v in enumerate(k1): In/not in 成员关系查询键不支持查值三，字典常用方法get(key,de):获取值：k.get(key,de) //若不存在则默认输出depop(k,de):删除一个键值对，不存在输出de，未设置报错；keys() :返回字典所有key组成的序列：list(k.keys()) [1,2,3]values():返回字典所有value组成的序列：list(k.values())items():返回键值对组成的元组为元素的序列：（类set）list(k.items())update(e):更新字典：e可是字典或两元素组成的单位元素序列：e=[(5,6),(7,8)]k.update(e)clear():清空字典；popitem()删除某个键值对，若字典为空则报错copy() :浅拷贝10, fromkeys(iterable,value=None):从可迭代对象创建字典{}.fromkeys([1,2,3]) -----{1:None,2:None,3:None} 11,setdefault(k,d=None) :若key不存在则生成一个键值对 k.setdefault(‘keyword’)Python 集合set集合表示的数据：多个元素的无序组合，集合是无序的，集合元素是唯一的；字典的键是由集合实现的；集合是可迭代对象集合创建：s = {1,2}s1 = set()s2 = set(iterable)集合元素的访问：For 循环将集合所有元素全部访问一遍，不重复常用方法：add(object):s.add(‘hi’) 向集合添加一个元素pop() :弹栈，集合为空则报错：删除任意一个元素；clear():清空集合，返回一个空集合对象；remove(object):删除一个元素，不存在和报错：s.remove(‘hi’)update(集合)：更新另一个集合，元素不存在则不更新；copy() :浅拷贝集合的运算：交集：s1&s2差集,补集：s1-s2并集：s1|s2Issubset():判断是否是子集：s1.issubset(s2) s1是否s2的集合子集Issuperset():判断是否是父集：s1.issuperset()不可变集合：Frozenset():返回一个空的不可变集合对象Frozenset(iterable):S = frozenset(iterable)Python序列类型共同特性一,序列类型共同特性python序列类型有:str字符串,list列表,tuple元组都支持下标索引，切片操作；下标都是从0开始，都可通过下标进行访问；拥有相同的操作符二，支持的函数：len(obj):返回对象长度；list(iterable):将可迭代对象转为列表；tuple(iterable):将可迭代对象转为元组；str(ojb):将任何对象转为字符串形式；max(iterable): python3中元素要是同类型，python2中元素可异构：max([‘a’,1])min(iterable):和max类似；sum(iterable,star=0),求可迭代对象和，默认star为0，元素不能为字符串sorted(iterable,key=None,reverse=False)s=[(‘a’,3),(‘b’,2),(‘c’,9)]sorted(s,key=lambda s:s[1]) //按照数字排序reversed(sequence):翻转序列，返回迭代器enumerate(iterable):返回enumerate对象,其元素都是一个元组（下标，值）zip（iter1,iter2）: zip([1,2],[3,4]) ----[(1,3),(2,4)]序列类型的切片操作：Slice:L[index] 访问某个元素；L[1:4] 区间L[star:stop:step] 设置步长取区间元素

1.直方图

由于正态分布具有非常典型的中间高，两边低的图形特征，如果样本数据并不服从正态分布，我们可以通过直方图很快地分辨出来。更进一步地，Python可以辅助生成基于样本数据估计的正态曲线，这样就容易辅助我们进行判断。

图形观察虽然直观，但是部分研究者认为单纯观察图形过于主观，因此我们也可以选择使用统计检验的方法去研究数据是否服从正态分布。

操作步骤：

导入相关的包及数据

2 P-P图及Q-Q图

直方图是最长用于观察数据分布的常用图形选项，尤其是带正态曲线的直方图，可以非常直观地看到实际数据分布和正态曲线的对比，而P-P图及Q-Q图则是另一种选择，它可以直观给出实际数据分布和理论的差距。

值得注意的是，虽然P-P图及Q-Q图常用用于判断数据样本是否服从正态分布，但实际上它们也能判断数据样本是否服从其他的分布

P-P图:反映的是数据的实际累积概率与假定所服从分布的理论累积概率的符合程度。在此处，我们所假定的分布就是正态分布，如果数据样本是服从正态分布的话，那么实际的累积概率与理论的累积概率应该是相对一致的，放映在图形中就是数据点应该沿着图形的对角线分布。

Q-Q图的原理与P-P图几乎一致。P-P图考察的是实际分布与理论分布的累积概率分布差异，而Q-Q图考察的是实际百分位数与理论百分位数的差异。同理在此处，我们所假定的分布就是正态分布，如果数据样本是服从正态分布的话，那么实际的分布应该是相对一致的，反映在图形中就是数据点应该沿着图形的对角线分布。

在Python中，statsmodels包中目前主要提供的是Q-Q图的绘制

柯尔莫戈洛夫-斯米诺夫检验（Kolmogorov-Smirnov test），一般又称K-S检验，是一种基于累计分布函数的非参数检验，用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。

K-S检验的原假设是“样本数据来自的分布与正态分布无显著差异”，因此一般来说，KS检验最终返回两个结果，分别是检验统计量及P值,检验结果P>0.05才是我们的目标。

实际上，GraphPad不推荐使用单纯的Kolmogorov-Smirnov test方法

夏皮洛-威尔克检验（Shapiro—Wilk test），一般又称W检验。W检验是一种类似于利用秩进行相关性检验的方法。同样需要注意的是，W检验与K-S检验一样，原假设是“样本数据来自的分布与正态分布无显著差异”，因此一般来说，W检验最终返回两个结果，分别是检验统计量及P值。,检验结果P>0.05才是我们的目标。

当数据集中的数据无重复值时，该方法的检验效果比较好，但是当数据集中有些数据不是独一无二的，即有些数据的数值是相同的，那么该方法的检验效果就不是很好

GraphPad官方推荐使用该方法。

首先计算偏度和峰度以便在不对称和形状方面量化分布离高斯分布的距离。然后，其计算这些值中的每一个与高斯分布的预期值之间的差异，并基于这些差异的总和，计算各P值。这是一种通用和强大的正态性检验，推荐使用。请注意，D'Agostino开发了几种正态性检验。Prism使用的其中一个是“综合K2”检验。

安德森-达令检验样本数据是否来自特定分布，包括分布：'norm', 'expon', 'gumbel', 'extreme1' or 'logistic'.

原假设 H0：样本服从特定分布；备择假设 H1：样本不服从特定分布

实际上，从已有的文献表明，对于数据分布的正态性研究，首选方法是图形观察，即利用直方图、P-P图或Q-Q图进行观察，如果分布严重偏态和尖峰分布则建议进行进一步的假设检验。如果图形分布结果不好判断，则再进行正态性检验。

其次，对于检验方法来说，对于K-S检验及W检验结果来说，有文献采用蒙特卡罗模拟方法进行多次验证，结果表明W检验结果相比于大部分方法都有较大的检验功效，而K-S方法的检验结果相对不佳。并且部分学者认为，K-S检验的实用性远不如图形工具，因为在样本量少时，该检验不太敏感，但是在样本量大时，该检验却过于敏感。因此正常情况下，我们更常采用W检验的结果。

值得注意的是，虽然说K-S检验结果相对不佳，但是不同检验方法对于样本量的敏感度是不一样的。在样本量较小的情况下（小于50个样本的情况下），请优先选择W检验；在样本量50-5000的情况下，可以酌情使用W检验及K—S检验；在样本量大于5000的情况下，请使用K-S检验结果，尤其是在SPSS中，当样本量大于5000的情况下，将只显示K-S检验结果，而不显示W检验结果。

def common_data(a, b, sub_common):

if sub_common == 1:

return sub_common

else:

k1 = a % sub_common

k2 = b % sub_common

if k1 == k2 == 0:

return sub_common

else:

sub_common = sub_common - 1

return common_data(a, b, sub_common)

上面就是定义了一个递归函数求最大公约数