R语言-KNN算法

R语言-KNN算法

1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本
Python190
聚类算法之K均值算法(k-means)的Python实现

聚类算法之K均值算法(k-means)的Python实现

K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V
Python180
《R语言实战》自学笔记44-t检验

《R语言实战》自学笔记44-t检验

数据准备t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n &lt30),总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均
Python160
机器学习模型评价指标及R实现

机器学习模型评价指标及R实现

机器学习模型评价指标及R实现1.ROC曲线考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive)
Python300
R语言学习笔记之聚类分析

R语言学习笔记之聚类分析

R语言学习笔记之聚类分析使用k-means聚类所需的包:factoextracluster #加载包library(factoextra)library(cluster)l#数据准备使用内置的R数据集USArrests#load t
Python160
python聚类分析散点图怎么分析

python聚类分析散点图怎么分析

聚类分析。我们先从二维空间说起,比如一个组织中的雇佣关系存在四种模式,x轴和y轴分别代表着企业对员工提供的诱因与企业对员工期望的贡献。两个坐标轴划分出了四种雇佣关系,企业对员工提供的诱因与企业对员工期望的贡献两个指标共同可以反映一个企业的员
Python180
初识R语言—统计篇之正态分布和抽样分布

初识R语言—统计篇之正态分布和抽样分布

2.夏皮罗检验(shapiro.test) 当w接近1,p &gt0.05时,说明数据符合正态分布,这个检验只适合于3-5000个数据,样本数量不在这个范围内的话,会报错 补充从b站麦子那里学到的另外三种判断是不是正态分布
Python190
在r语言中求泊松分布参数的矩估计

在r语言中求泊松分布参数的矩估计

∵X服从参数为λ的泊松分布∴P(X=m)=λmm!e?λ,(m=0,1,2,…)设x1,x2,…xn是来自总体的一组样本观测值则最大似然函数为L(x1,x2,…,xn;λ)=nπi=1λxixi!e?λ=e?nλnπi=1λxixi!∴ln
Python100
离线文字转语音(人生苦短,我用Python)

离线文字转语音(人生苦短,我用Python)

前几天一个需求需要实现刷完门禁之后实现广播,相当于文字转语音;发现世界上最好的语言(PHP)解决方案不支持离线,几乎都是需要互联网+第三方接口才能实现;另外即使JS的类库,也存在各种各样的问题; 办法还是比困难多,经过多方求证;终于:人
Python180
Structure图的构建与理解

Structure图的构建与理解

什么是structure图?如果你有看过群体遗传相关的文章,你对它肯定不会陌生。对那些还没有接触过的同学,那就直接上图吧: 上图是选取于一个大麦群体遗传的研究。不同的颜色种类分别代表了种群的数目,橙色代表了驯化的大麦,绿色是野生的大
Python320
【R语言】--- 箱型图

【R语言】--- 箱型图

箱线图主要是通过四分位数描述数据分布,通过最大值,上四分位数,中位数,下四分位数,最小值五处位置描述数据分布情况。箱线图能够显示出可能为离群点(范围±1.5*IQR以外的值,IQR表示四分位距,即上四分位数与下四分位数的差值)的观测。从箱线
Python210
R语言-均值填充缺失值

R语言-均值填充缺失值

在基因芯片数据或其他类型数据中,采用计算所有样本的平均值从而进行填充,如果需要用中位数或其他统计量填充时只需修改相应的方法即可 #1. 检查是否有缺失值 which(is.na(mRNA),arr.ind = T) #2. 计算
Python210
R语言箱线图(boxplot)四分位算法

R语言箱线图(boxplot)四分位算法

箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。它也可以粗略地看出数据是否具有有对称性,分布的离散程度等信息;特别适用
Python290
R语言计算方差

R语言计算方差

nrow(leadership)是leadership这个数据集的行数(可能就是样本数),1:nrow(leadership) 是一个向量,从1到nrow(leadership),sample(1:nrow(leadership)) 是将里
Python200
R语言|绘制物种累计曲线

R语言|绘制物种累计曲线

物种累积曲线( species accumulation curves)用于衡量和预测群落中物种丰富度随样本量扩大而增加的幅度,在生物多样性和群落调查中,被广泛用于判断样本量是否充分的并估计群落丰富度。 一般而言,在样本量较少的情况下,
Python140