R语言-KNN算法

R语言-KNN算法

1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本
Python110
r语言是什么

r语言是什么

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。发展历史R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。可以认为R是S语言的一种实现。
Python120
R语言--不均衡问题处理

R语言--不均衡问题处理

样本不均衡问题是指在机器学习分类任务中,不同类型的样本占比差距悬殊。 比如训练数据有100个样本,其中只有5个正样本,其余均为负样本,这样正样本:负样本=5%:95%,训练数据中负样本过多,会导致模型无法充分学习到正样本的信息,这时候
Python100
R语言中 fitted和predict的区别

R语言中 fitted和predict的区别

简单的说,fitted是拟合值,predict是预测值:所做的模型是基于给定样本的值建立的,在这些给定样本x1,x2,...,xn(已知所对应的y值)上做预测就是拟合;在新样本上xn+1,xn+2,...(y值未知)做预测,就是模型预测。
Python170
R语言-KNN算法

R语言-KNN算法

1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本
Python140
R语言初学笔记:差异表达基因

R语言初学笔记:差异表达基因

setwd("E:GSE25066")#环境设置 library(limma)#加载差异分析包limma #将分组文件加载到环境中,分组信息第一列为样本名,第二列为分组信息如“high”“low” targ
Python410
《R语言实战》自学笔记44-t检验

《R语言实战》自学笔记44-t检验

数据准备t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n &lt30),总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均
Python150
r语言贝叶斯判别先验概率怎么去

r语言贝叶斯判别先验概率怎么去

Bayes判别,它是基于Bayes准则的判别方法,判别指标为定量资料,它的判别规则和最大似然判别、Bayes公式判别相似,都是根据概率大小进行判别,要求各类近似服从多元正态分布。1. Bayes准则:寻求一种判别规则,使得属于第k类的样品在
Python130
R语言-KNN算法

R语言-KNN算法

1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本
Python100
r语言中可以做比分检验和wald检验吗

r语言中可以做比分检验和wald检验吗

1. Sigma:方差-协方差矩阵2. b:VAR-CoV的矩阵Sigma系数的矢量。3. Terms:一个可选的整数向量确定的系数应联合检验,使用一个瓦尔德chi-squared或F测试。4. L:可选的矩阵。5. H0:零假设6. df
Python110
聚类算法之K均值算法(k-means)的Python实现

聚类算法之K均值算法(k-means)的Python实现

K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V
Python130
R语言常用函数(基本)

R语言常用函数(基本)

vector:向量 numeric:数值型向量 logical:逻辑型向量 character;字符型向量 list:列表data.frame:数据框 c:连接为向量或列表 sequence:等差序列 rep:重复 length
Python120
单细胞转录组双细胞判别软件scDblFinder

单细胞转录组双细胞判别软件scDblFinder

起因: 最近有个问题样本,跑完cellranger,样本的cellranger结果如下,细胞数目极高(3W+)。在后续数据质控分析中,线粒体基因占比和双细胞率均很高,用scDblFinder进行双细胞预测,双细胞占率竟然高达34%。我很
Python170
R语言GEO数据挖掘:步骤三:进行基因差异分析

R语言GEO数据挖掘:步骤三:进行基因差异分析

用limma包,这里注意,limma包是对基因芯片表达矩阵的分析,不能对逆转录RNAseq表达矩阵进行分析(因为数据特征不同),RNAseq需要用另一种方法 解读此表 但是上面的用法做不到随心所欲的指定任意两组进行比较,所有还有下一
Python120
如何用r语言进行数据分类

如何用r语言进行数据分类

首先,原始数据是由name(名字),class(班级),course(课程)和score(分数)组成的,将其导入R语言并存储在Mydata对象里接下来,我们利用sqldf包来处理分组汇总的问题。由于sqldf包不是R语言自带的,所以先用以下
Python120
R语言-KNN算法

R语言-KNN算法

1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本
Python170