最新发布

# 2023-02-09
鸿蒙系统的缩小屏幕功能
鸿蒙系统的缩小屏幕功能说明如下：首先在屏幕的左侧、右侧滑动并长按打开侧边栏；在侧边栏选择需要分屏的应用，可上下滑动选择应用，可以点击最下方的按钮查看更多应用。选择应用后，将会在屏幕上直接以小窗口的形式显示；可按住上方的横条进行拖动，也可
# 2023-02-09
华为的鸿蒙系统是是什么语言开发的？
根据华为公布的方舟编译器资料，可以得知鸿蒙系统是用C、C++语言编写。鸿蒙系统和方舟编译器的思路是一样：直接使用机器语言编写app，取消安卓系统的ART虚拟机，直接编译为二进制机器码；这样的好处是：不需要中转，执行速度快；劣势是：必须要
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
harmonyos是什么
harmonyos是华为鸿蒙系统。鸿蒙OS是华为公司开发的一款基于微内核、耗时10年、4000多名研发人员投入开发、面向5G物联网、面向全场景的分布式操作系统。鸿蒙的英文名是HarmonyOS，意为和谐。不是安卓系统的分支或修改而来的。与
# 2023-02-09
华为首款三分频智能音箱，HarmonyOS家族的颜值与音质担当
HUAWEI Sound X系列从2019年正式推出之后，便备受用户好评。第一代HUAWEI Sound X与帝瓦雷联合设计，在智能音箱当时大多处于功能性的大环境下，第一代HUAWEI Sound X让用户体验到了智慧与音质并
# 2023-02-09
荣耀机型开启HarmonyOS 2内测，另有17款华为机型即将启动
目前，可以说华为自主研发的鸿蒙HarmonyOS系统正在如火如荼地开展升级及测试工作，而作为华为曾经的子品牌荣耀品牌的机型很多小伙伴都在期待获得HarmonyOS 2的测试，而最新消息来了，荣耀机型开启HarmonyOS内测了。根据最
# 2023-02-09
极客简报｜华为跌倒苹果吃饱；HarmonyOS 用户破亿
本周苹果召开新品发布会，iPhone 13 系列、iPad 9、iPad mini 6 以及 Apple Watch Series 7 正式亮相，大多数产品已于本周开卖，最快 9 月 24 日即可到手。极客之选
# 2023-02-09
harmonyos可以玩原神吗
harmonyos可以玩原神。根据天眼查显示，HarmonyOS2系列，现已推送到多款机型中将正在游玩的《原神》一键从Mate40Pro转到MatePad上。《原神》是由上海米哈游制作发行的一款开放世界冒险游戏。华为于7月12日宣布，H

06 决策树 - 案例一 - 鸢尾花数据分类、卡方检验

2023-02-20 01:01:01Python017

06 决策树 - 案例一 - 鸢尾花数据分类、卡方检验,第1张

这次案例还是使用鸢尾花数据分类的数据。

数据路径： /datas/iris.data

数据格式：

数据解释：

1、引入头文件

feature_selection 是做特征选择的包

feature_selection 中的方法 SelectKBest ，帮助我们选择K个最优的特征

feature_selection 中的方法 chi2-卡方检验，表示使用 chi2 的方法帮助我们在 SelectKBest 中选择最优的K个最优特征。

2、防中文乱码、去警告、读取数据

总样本数目：150特征属性数目:4

x=data[list(range(4))]

取得样本前四列特殊数据 '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'

iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'

y=pd.Categorical(data[4]).codes#把Y转换成分类型的0,1,2

将目标的三种分类转换成0,1,2

PS: 在之前的例子中： 04 分类算法 - Logistic回归 - 信贷审批案例，我们自己写过一个分类的算法对部分特征进行哑编码操作: parseRecord(record) ，其实pandas自己也集成了这个转换算法： pd.Categorical(data[4]).codes ，可以把y直接转换成0,1,2。

以上是数据预处理的步骤，和之前的例子类似。

3、数据分割(训练数据和测试数据)

训练数据集样本数目：120, 测试数据集样本数目：30

注意： 这个demo中的案例在这一步还没有做 KFold-K折交叉验证。当前步骤的主要内容是对数据进行划分。K折就要生成K个互斥的子集。 KFold 的工作就是帮助我们划分子集的，划分完后我们将子集扔进建模即可。 02 分类算法 - Logistic案例中提及过K折交叉验证的内容。

4、数据标准化和数据归一化的区别

思考： 行数据和列数据，哪个服从正态分布？显然，列数据是特征，和样本一样都服从正态分布。所以数据标准化和归一化的对象是列。

数据标准化：

StandardScaler (基于特征矩阵的列，将属性值转换至服从正态分布)

标准化是依照特征矩阵的列处理数据，其通过求z-score: z-score=(x-μ)/σ 的方法，将样本的特征值转换到同一量纲下。z-score是N(0,1)正态分布，即标准正态分布。

常用与基于正态分布的算法，比如回归。

PS：在 04 回归算法 - 最小二乘线性回归案例中对 ss = StandardScaler() 数据标准化操作进行了深入分析。

数据归一化：

MinMaxScaler （区间缩放，基于最大最小值，将数据转换到0,1区间上的）

提升模型收敛速度，提升模型精度。

常见用于神经网络。

Normalizer （基于矩阵的行，将样本向量转换为单位向量）

其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准。

常见用于文本分类和聚类、logistic回归中也会使用，有效防止过拟合。

原始数据各个特征属性的调整最小值:

[-1.19444444 -0.83333333 -0.18965517 -0.04166667]

原始数据各个特征属性的缩放数据值:

[ 0.27777778 0.41666667 0.17241379 0.41666667]

5、特征选择：

特征选择：从已有的特征中选择出影响目标值最大的特征属性

特征选择是一个transform的过程

常用方法：

{ 分类：F统计量、卡方系数，互信息mutual_info_classif

{ 连续：皮尔逊相关系数 F统计量互信息mutual_info_classif

这里介绍一种特征选择方法： K方检验 SelectKBest

补充知识：K方检验

https://baike.baidu.com/item/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C/2591853?fr=aladdin

ch2 = SelectKBest(chi2,k=3) 这步操作本质是一个Transformer的步骤。Transformer的概念参考 05 回归算法 - 多项式扩展、管道Pipeline 。

K方检验的本质是：判断两个特征之间的关联程度。

看下面两个样本：

1、男女性别和是否会化妆的关联性是很强的：

2、男女性别和是否出门带口罩的关联性不强：

但大部分属性对结果的关联性我们很难用常识去判断，所以我们可以首先假设样本的特征和目标无关。

假设性别和是否会化妆无关。 因此我们设男人中化妆的比例为55%，男人中不化妆的比例是45%

根据实际情况进行计算：( 列联表 )

(20-55) 2 /55 + (90-55) 2 /55 + (80-45) 2 /45 + (10-45) 2 /45

结果越大，说明性别和是否会化妆的关联程度越大，当数值较大时我们可以说拒绝原假设，即原假设错误，真实情况下性别和是否会化妆有很大的影响。 (越大越拒绝)

如果结果越小，说明假设正确，我们称之为不拒绝原假设。

注意: K方统计用于离散的特征，对连续的特征无效。

对类别判断影响最大的三个特征属性分布是:

[ True False True True]

[0 2 3]

这里False的属性就是K方检验分数最小的那个，如果只取3个特征，False对应的那个特征就会被丢弃。

6、模型的构建、训练、预测：

准确率:96.67%

Score： 0.966666666667

Classes: [0 1 2]

7、画图：

交叉验证是建立模型后进行参数调整和模型检验的一个步骤。本文就sklearn自带的鸢尾花数据集，进行基本的建模思路整理和交叉验证梳理。

注：

鸢尾花案例的背景是，通过已知（历史）花的数据和对应的分类，训练出模型结果，从而得到分类模型。

实现效果是可以预测鸢尾花的分类。

交叉验证的基本思想是在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。

而对一个数据集进行多次（cv）交叉验证，并对每一次的得分求平均得到最客观的评价分数可以作为最终评分。

因此，它的作用就是：用于参数调整和模型选择/评价。

0.9736842105263158

0.9733333333333334

该结果接近满分，说明模型分类效果较好。可以采用该模型。

KNN算法中k值的大小，代表分类时考虑训练数据点周围的数据点的个数。不同的k的取值，分类结果不同。我们可以用循环的方法对k进行循环，根据不同k值对应的得分（上述交叉验证的评价得分）决定k的取值，从而确定最终的模型和模型评价。

上图是以准确度为评价标准，k从1～31对应的score的值

这组数据选择12～18至间的数字会比较好。

上图是用平均方差值来作为评价标准（越接近0说明拟合效果越好），k选择13~18是比较合适的。

（回归模型的评价一般用R^2 值来判断，R^2越接近1，也就是误差平方和越接近0，拟合效果越好）

上述两个不同评价标准下的数值是调参的过程，可以由此定下k的值，从而确定模型。

数据特征模型样本正态分布

# 上一篇：JS事件对象中 target 和 currentTarget 的区别

# 下一篇：学习C语言究竟要怎么样才算精通？