Python 字符串相似性的几种度量方法

Python08

Python 字符串相似性的几种度量方法,第1张

split([sep]) 将字符串分割为列表,默认用空白符分割,给出字符串参数,用参数字符串分割

'a b c'.split() 返回 ['a','b','c']

join 将可迭代对象中的字符串连接在一起

'\n'.join(['a','b','c'] )返回字符串 "a\nb\nc"

str.find(substr,[start,[end]]) 从str的下标 start至end之间查找substr,返回substr出现位置的下标,未找到返回-1

str.index 与find相仿,但未找到抛出异常

其余还要通用的下标 ,切片操作等

在敏捷开发宣言中,最后一句为“响应变化 高于 遵循计划”,从敏捷本质上来说,IT部门对于业务部门所提需求的响应度会是IT部门的一个重要指标

那应该如何度量业务需求响应度呢?

从单一的业务需求响应度来说可以度量从需求提出到需求上线的时间,一个团队在一段时间的需求的响应度可能如下图所示:

敏捷开发模式下会尽量追求需求的平准化,这使得团队在一段时间内完成的需求会有一个众数的波峰值,也有一个长尾来表示超出平准化需求的特殊需求。

若是取均值或者中位数可以看到对于业务需求响应度来说还是有很大一部分的数据没有被覆盖,所以实际实施时,可以试算一下P80以后的百分位值,看哪一个更能符合团队的需求平准度。P80以后的值都可以用以衡量服务级别,P85,P90,P95都可用以做一个平衡点。一般选用P85是从正态分布来说,从下图所示(50%+34.1%-1标准方差,约为85%):

若我们以P85作为一个基准点,则可取 统计周期内,需求时效的P85值来作为需求时效的目标值。

如何快速计算一组数据的P85值

1)Excel中有PERCENTILE函数专门用来计算百分位值

假设你的数据在A列的A1到A10

在B1输入=PERCENTILE(A1:A10,0.1) 得到的是第10[百分位数

在B2输入=PERCENTILE(A1:A10,0.9) 得到的是第90百分位数

2)Python中也可以用numpy中的percentile函数来计算

3)PENCENTILE函数的人工计算方法

第1步:以递增顺序排列[原始数据(即从小到大排列)。

第2步:计算指数i=np%=j+g,n为原始数据的个数,j为整数部分,g为小数部分。

第3步:

1)当g=0时:P百分位数=X(j)第J个数

2)当g≠0时:P百分位数=g X(j+1)+(1-g) X(j)

以此,我们可以顺利的算出 需求时效的P85值。

一、基本原理

在信息论中,熵是对不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。

根据熵的特性,可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响(权重)越大,其熵值越小。

二、熵值法步骤

1. 选取n个国家,m个指标,则为第i个国家的第j个指标的数值(i=1, 2…, nj=1,2,…, m);

2. 指标的归一化处理:异质指标同质化

由于各项指标的计量单位并不统一,因此在用它们计算综合指标前,先要对它们进行标准化处理,即把指标的绝对值转化为相对值,并令,从而解决各项不同质指标值的同质化问题。而且,由于正向指标和负向指标数值代表的含义不同(正向指标数值越高越好,负向指标数值越低越好),因此,对于高低指标我们用不同的算法进行数据标准化处理。其具体方法如下:

正向指标:

负向指标:

则为第i个国家的第j个指标的数值(i=1, 2…, nj=1, 2,…, m)。为了方便起见,归一化后的数据仍记为

3. 计算第j项指标下第i个国家占该指标的比重:

4. 计算第j项指标的熵值:

其中. 满足

5. 计算信息熵冗余度:

6. 计算各项指标的权值:

7. 计算各国家的综合得分:

[code]function [s,w]=shang(x)

% 函数shang.m, 实现用熵值法求各指标(列)的权重及各数据行的得分

% x为原始数据矩阵, 一行代表一个国家, 每列对应一个指标

% s返回各行得分, w返回各列权重

[n,m]=size(x)% n=23个国家, m=5个指标

%% 数据的归一化处理

% Matlab2010b,2011a,b版本都有bug,需如下处理. 其它版本直接用[X,ps]=mapminmax(x',0,1)即可

[X,ps]=mapminmax(x')

ps.ymin=0.002% 归一化后的最小值

ps.ymax=0.996% 归一化后的最大值

ps.yrange=ps.ymax-ps.ymin% 归一化后的极差,若不调整该值, 则逆运算会出错

X=mapminmax(x',ps)

% mapminmax('reverse',xx,ps)% 反归一化, 回到原数据

X=X' % X为归一化后的数据, 23行(国家), 5列(指标)

%% 计算第j个指标下,第i个记录占该指标的比重p(i,j)

for i=1:n

for j=1:m

p(i,j)=X(i,j)/sum(X(:,j))

end

end

%% 计算第j个指标的熵值e(j)

k=1/log(n)

for j=1:m

e(j)=-k*sum(p(:,j).*log(p(:,j)))

end

d=ones(1,m)-e % 计算信息熵冗余度

w=d./sum(d) % 求权值w

s=w*p'% 求综合得分[\code]

测试程序:

data.txt 数据如下:

114.6 1.1 0.71 85.0 346

55.3 0.96 0.4 69.0 300

132.4 0.97 0.54 73.0 410

152.1 1.04 0.49 77.0 433

103.5 0.96 0.66 67.0 385

81.0 1.08 0.54 96.0 336

179.3 0.88 0.59 89.0 446

29.8 0.83 0.49 120.0 289

92.7 1.15 0.44 154.0 300

248.6 0.79 0.5 147.0 483

115.0 0.74 0.65 252.0 453

64.9 0.59 0.5 167.0 402

163.6 0.85 0.58 220.0 495

95.7 1.02 0.48 160.0 384

139.5 0.70 0.59 217.0 478

89.9 0.96 0.39 105.0 314

76.7 0.95 0.51 162.0 341

121.8 0.83 0.60 140.0 401

42.1 1.08 0.47 110.0 326

78.5 0.89 0.44 94.0 280

77.8 1.19 0.57 91.0 364

90.0 0.95 0.43 89.0 301

100.6 0.82 0.59 83.0 456

执行代码:

[code]x=load('data.txt') % 读入数据

[s,w]=shang(x)[\code]

运行结果:

s =

Columns 1 through 9

0.04310.0103 0.03710.04040.03690.0322 0.05070.02290.0397

Columns 10 through 18

0.06930.0878 0.04660.08600.05030.0800 0.02340.04560.0536

Columns 19 through 23

0.02720.0181 0.03640.02020.0420

w =

0.16600.0981 0.17570.33480.2254