R语言-KNN算法1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本2023-02-24Python190
聚类算法之K均值算法(k-means)的Python实现K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V2023-02-24Python180
《R语言实战》自学笔记44-t检验数据准备t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n <30),总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均2023-02-24Python160
机器学习模型评价指标及R实现机器学习模型评价指标及R实现1.ROC曲线考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive)2023-02-24Python300
R语言学习笔记之聚类分析R语言学习笔记之聚类分析使用k-means聚类所需的包:factoextracluster #加载包library(factoextra)library(cluster)l#数据准备使用内置的R数据集USArrests#load t2023-02-23Python160
python聚类分析散点图怎么分析聚类分析。我们先从二维空间说起,比如一个组织中的雇佣关系存在四种模式,x轴和y轴分别代表着企业对员工提供的诱因与企业对员工期望的贡献。两个坐标轴划分出了四种雇佣关系,企业对员工提供的诱因与企业对员工期望的贡献两个指标共同可以反映一个企业的员2023-02-23Python180
初识R语言—统计篇之正态分布和抽样分布2.夏皮罗检验(shapiro.test) 当w接近1,p >0.05时,说明数据符合正态分布,这个检验只适合于3-5000个数据,样本数量不在这个范围内的话,会报错 补充从b站麦子那里学到的另外三种判断是不是正态分布2023-02-23Python190
如何在R语言中进行神经网络模型的建立不能发链接,所以我复制过来了。#载入程序和数据 library(RSNNS) data(iris)#将数据顺序打乱 iris <- iris[sample(1:nrow(iris),length(1:nrow(iris))),12023-02-23Python130
在r语言中求泊松分布参数的矩估计∵X服从参数为λ的泊松分布∴P(X=m)=λmm!e?λ,(m=0,1,2,…)设x1,x2,…xn是来自总体的一组样本观测值则最大似然函数为L(x1,x2,…,xn;λ)=nπi=1λxixi!e?λ=e?nλnπi=1λxixi!∴ln2023-02-23Python100
离线文字转语音(人生苦短,我用Python)前几天一个需求需要实现刷完门禁之后实现广播,相当于文字转语音;发现世界上最好的语言(PHP)解决方案不支持离线,几乎都是需要互联网+第三方接口才能实现;另外即使JS的类库,也存在各种各样的问题; 办法还是比困难多,经过多方求证;终于:人2023-02-23Python180
Structure图的构建与理解什么是structure图?如果你有看过群体遗传相关的文章,你对它肯定不会陌生。对那些还没有接触过的同学,那就直接上图吧: 上图是选取于一个大麦群体遗传的研究。不同的颜色种类分别代表了种群的数目,橙色代表了驯化的大麦,绿色是野生的大2023-02-23Python320
【R语言】--- 箱型图箱线图主要是通过四分位数描述数据分布,通过最大值,上四分位数,中位数,下四分位数,最小值五处位置描述数据分布情况。箱线图能够显示出可能为离群点(范围±1.5*IQR以外的值,IQR表示四分位距,即上四分位数与下四分位数的差值)的观测。从箱线2023-02-23Python210
R语言-均值填充缺失值在基因芯片数据或其他类型数据中,采用计算所有样本的平均值从而进行填充,如果需要用中位数或其他统计量填充时只需修改相应的方法即可 #1. 检查是否有缺失值 which(is.na(mRNA),arr.ind = T) #2. 计算2023-02-23Python210
用R语言编写,编写程序分别产生100个均值为0标准差为1的正态分布随机数,产生100个均值为0标准差为1的正态分布随机数:rnorm(100,mean=0,sd=1)指数分布数dnorm(x,mean=5,sd=1,log=TRUE)独立双样本t检验,首先假设我们的两组数据完全由独立抽样得来;t.test函数可以2023-02-23Python170
r语言区间估计用的函数在哪个文件夹1、方差已知时的均值估计z.test<-function(x,n,sigma,a,u0,alt){result<-list()mean<-mean(x)result$interval<-c2023-02-23Python160
R语言箱线图(boxplot)四分位算法箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。它也可以粗略地看出数据是否具有有对称性,分布的离散程度等信息;特别适用2023-02-23Python290
R语言里的 function(size=10, rep=1000)什么意思,function()具体怎么用?function用来定义函数,一般一个函数放在一个.m文件里。举个简单的例子建立一个myfunction.m,然后在文件中写。function y=myfunction(a,b)其中a,b是输入函数的参数,y是函数返回的值。当需要返回多个值2023-02-23Python250
R语言计算方差nrow(leadership)是leadership这个数据集的行数(可能就是样本数),1:nrow(leadership) 是一个向量,从1到nrow(leadership),sample(1:nrow(leadership)) 是将里2023-02-23Python200
R语言|绘制物种累计曲线物种累积曲线( species accumulation curves)用于衡量和预测群落中物种丰富度随样本量扩大而增加的幅度,在生物多样性和群落调查中,被广泛用于判断样本量是否充分的并估计群落丰富度。 一般而言,在样本量较少的情况下,2023-02-23Python140
R语言可视化及作图6--ggplot2之点图、条形图、盒形图、直方图、线图R语言绘图系列: 标度控制着数据到图形属性的映射,标度将我们的数据转化为视觉上可以感知的东西,比如大小、位置、颜色、形状等。标度也为我们提供了读图时所使用的工具,比如说坐标轴和图例。总的来说,可以称为引导元素。标度函数控制元素的属性,可2023-02-23Python230