基于R语言的分类、聚类研究

Python021

基于R语言的分类、聚类研究,第1张

1.所有在对iris数据集分(聚)类研究中,setosa均可以完全正确分(聚)类,而另外两类则会出现不同程度的误差,这也是导致整个研究模型出现误差的原因;

2.在使用的三种分类研究方法中,决策树模型的效果最优,因此可以使用该方法进行鸢尾花数据集的分类预测研究。

1.在对鸢尾花数据集进行聚类时,K-means、K-medoids两种聚类方法的正确率相同,可见在数据集离群点和噪音不大的情况下,二者聚类效果基本相同,但当出现离群点和噪音时,应该考虑K-medoids聚类方法;

2.鸢尾花数据集进行聚类分析时,划分聚类效果优于层次聚类;

3.对于量纲不一致的数据,应进行标准化,但对于量纲一致的数据,标准化之后结果并不一定优于未标准化的数据得到的结果。

这次案例还是使用鸢尾花数据分类的数据。

数据路径: /datas/iris.data

数据格式:

数据解释:

1、引入头文件

feature_selection 是做特征选择的包

feature_selection 中的方法 SelectKBest ,帮助我们选择K个最优的特征

feature_selection 中的方法 chi2-卡方检验 ,表示使用 chi2 的方法帮助我们在 SelectKBest 中选择最优的K个最优特征。

2、防中文乱码、去警告、读取数据

样本数目:150特征属性数目:4

x=data[list(range(4))]

取得样本前四列特殊数据 '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'

iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'

y=pd.Categorical(data[4]).codes#把Y转换成分类型的0,1,2

将目标的三种分类转换成0,1,2

PS: 在之前的例子中: 04 分类算法 - Logistic回归 - 信贷审批案例 ,我们自己写过一个分类的算法对部分特征进行哑编码操作: parseRecord(record) ,其实pandas自己也集成了这个转换算法: pd.Categorical(data[4]).codes ,可以把y直接转换成0,1,2。

以上是数据预处理的步骤,和之前的例子类似。

3、数据分割(训练数据和测试数据)

训练数据集样本数目:120, 测试数据集样本数目:30

注意: 这个demo中的案例在这一步还没有做 KFold-K折交叉验证 。当前步骤的主要内容是对数据进行划分。K折就要生成K个互斥的子集。 KFold 的工作就是帮助我们划分子集的,划分完后我们将子集扔进建模即可。 02 分类算法 - Logistic案例 中提及过K折交叉验证的内容。

4、数据标准化和数据归一化的区别

思考: 行数据和列数据,哪个服从正态分布?显然,列数据是特征,和样本一样都服从正态分布。所以数据标准化和归一化的对象是列。

数据标准化:

StandardScaler (基于特征矩阵的列,将属性值转换至服从正态分布)

标准化是依照特征矩阵的列处理数据,其通过求z-score: z-score=(x-μ)/σ 的方法,将样本的特征值转换到同一量纲下。z-score是N(0,1)正态分布,即标准正态分布。

常用与基于正态分布的算法,比如回归。

PS:在 04 回归算法 - 最小二乘线性回归案例 中对 ss = StandardScaler() 数据标准化操作进行了深入分析。

数据归一化:

MinMaxScaler (区间缩放,基于最大最小值,将数据转换到0,1区间上的)

提升模型收敛速度,提升模型精度。

常见用于神经网络。

Normalizer (基于矩阵的行,将样本向量转换为单位向量)

其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准。

常见用于文本分类和聚类、logistic回归中也会使用,有效防止过拟合。

原始数据各个特征属性的调整最小值:

[-1.19444444 -0.83333333 -0.18965517 -0.04166667]

原始数据各个特征属性的缩放数据值:

[ 0.27777778 0.41666667 0.17241379 0.41666667]

5、特征选择:

特征选择:从已有的特征中选择出影响目标值最大的特征属性

特征选择是一个transform的过程

常用方法:

{ 分类:F统计量、卡方系数,互信息mutual_info_classif

{ 连续:皮尔逊相关系数 F统计量 互信息mutual_info_classif

这里介绍一种特征选择方法: K方检验 SelectKBest

补充知识:K方检验

https://baike.baidu.com/item/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C/2591853?fr=aladdin

ch2 = SelectKBest(chi2,k=3) 这步操作本质是一个Transformer的步骤。Transformer的概念参考 05 回归算法 - 多项式扩展、管道Pipeline 。

K方检验的本质是:判断两个特征之间的关联程度。

看下面两个样本:

1、男女性别和是否会化妆的关联性是很强的:

2、男女性别和是否出门带口罩的关联性不强:

但大部分属性对结果的关联性我们很难用常识去判断,所以我们可以首先假设样本的特征和目标无关。

假设性别和是否会化妆无关。 因此我们设男人中化妆的比例为55%,男人中不化妆的比例是45%

根据实际情况进行计算:( 列联表 )

(20-55) 2 /55 + (90-55) 2 /55 + (80-45) 2 /45 + (10-45) 2 /45

结果越大,说明性别和是否会化妆的关联程度越大,当数值较大时我们可以说拒绝原假设,即原假设错误,真实情况下性别和是否会化妆有很大的影响。 (越大越拒绝)

如果结果越小,说明假设正确,我们称之为不拒绝原假设。

注意: K方统计用于离散的特征,对连续的特征无效。

对类别判断影响最大的三个特征属性分布是:

[ True False True True]

[0 2 3]

这里False的属性就是K方检验分数最小的那个,如果只取3个特征,False对应的那个特征就会被丢弃。

6、模型的构建、训练、预测:

准确率:96.67%

Score: 0.966666666667

Classes: [0 1 2]

7、画图: