R语言-KNN算法1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本2023-02-27Python110
r语言是什么R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。发展历史R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。可以认为R是S语言的一种实现。2023-02-27Python120
R语言--不均衡问题处理样本不均衡问题是指在机器学习分类任务中,不同类型的样本占比差距悬殊。 比如训练数据有100个样本,其中只有5个正样本,其余均为负样本,这样正样本:负样本=5%:95%,训练数据中负样本过多,会导致模型无法充分学习到正样本的信息,这时候2023-02-27Python100
R语言中 fitted和predict的区别简单的说,fitted是拟合值,predict是预测值:所做的模型是基于给定样本的值建立的,在这些给定样本x1,x2,...,xn(已知所对应的y值)上做预测就是拟合;在新样本上xn+1,xn+2,...(y值未知)做预测,就是模型预测。2023-02-27Python170
R语言-KNN算法1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本2023-02-27Python140
R语言初学笔记:差异表达基因setwd("E:GSE25066")#环境设置 library(limma)#加载差异分析包limma #将分组文件加载到环境中,分组信息第一列为样本名,第二列为分组信息如“high”“low” targ2023-02-27Python410
《R语言实战》自学笔记44-t检验数据准备t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n <30),总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均2023-02-27Python150
Python数据分析(4)决策树模型时间:20210630 系统环境:Windows 10 所用工具:Jupyter NotebookPython 3.0 涉及的库:pandastrain_test_splitDecisionTreeClassifie2023-02-27Python160
r语言贝叶斯判别先验概率怎么去Bayes判别,它是基于Bayes准则的判别方法,判别指标为定量资料,它的判别规则和最大似然判别、Bayes公式判别相似,都是根据概率大小进行判别,要求各类近似服从多元正态分布。1. Bayes准则:寻求一种判别规则,使得属于第k类的样品在2023-02-27Python130
python中的sklearn中决策树使用的是哪一种算法sklearn中决策树分为DecisionTreeClassifier和DecisionTreeRegressor,所以用的算法是CART算法,也就是分类与回归树算法(classification and regression tree,C2023-02-27Python130
R语言-KNN算法1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本2023-02-27Python100
r语言中可以做比分检验和wald检验吗1. Sigma:方差-协方差矩阵2. b:VAR-CoV的矩阵Sigma系数的矢量。3. Terms:一个可选的整数向量确定的系数应联合检验,使用一个瓦尔德chi-squared或F测试。4. L:可选的矩阵。5. H0:零假设6. df2023-02-27Python110
聚类算法之K均值算法(k-means)的Python实现K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V2023-02-27Python130
如何用r语言rsnns包建立神经网络不能发链接,所以我复制过来了。#载入程序和数据 library(RSNNS) data(iris)#将数据顺序打乱 iris <- iris[sample(1:nrow(iris),length(1:nrow(iris))),12023-02-27Python170
r语言如何随机抽取学号表中的两个男生R语言读取(加载)txt格式数据为dataframe、依据学号字段从dataframe随机抽取10位同学的数据。详细编码如下。ReportCard1=read.table(file='test1.txt',header=2023-02-27Python140
R语言常用函数(基本)vector:向量 numeric:数值型向量 logical:逻辑型向量 character;字符型向量 list:列表data.frame:数据框 c:连接为向量或列表 sequence:等差序列 rep:重复 length2023-02-27Python120
单细胞转录组双细胞判别软件scDblFinder起因: 最近有个问题样本,跑完cellranger,样本的cellranger结果如下,细胞数目极高(3W+)。在后续数据质控分析中,线粒体基因占比和双细胞率均很高,用scDblFinder进行双细胞预测,双细胞占率竟然高达34%。我很2023-02-27Python170
R语言GEO数据挖掘:步骤三:进行基因差异分析用limma包,这里注意,limma包是对基因芯片表达矩阵的分析,不能对逆转录RNAseq表达矩阵进行分析(因为数据特征不同),RNAseq需要用另一种方法 解读此表 但是上面的用法做不到随心所欲的指定任意两组进行比较,所有还有下一2023-02-27Python120
如何用r语言进行数据分类首先,原始数据是由name(名字),class(班级),course(课程)和score(分数)组成的,将其导入R语言并存储在Mydata对象里接下来,我们利用sqldf包来处理分组汇总的问题。由于sqldf包不是R语言自带的,所以先用以下2023-02-27Python120
R语言-KNN算法1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本2023-02-27Python170