《R语言实战》自学笔记69-重抽样和自助法

《R语言实战》自学笔记69-重抽样和自助法

数据准备 许多实际情况中统计假设(假定观测数据抽样自正态分布或者其他性质较好的理论分布)并不一定满足,比如数据抽样于未知或混合分布、样本量过小、存在离群点、基于理论分布设计合适的统计检验过于复杂且数学上难以处理等情况,这时基于随机化和
Python220
r语言剪枝前后准确度不变事有什么问题

r语言剪枝前后准确度不变事有什么问题

程序有误或者本来的数据本身已经有很强的可分性。根据相关资料查询结果显示,r语言剪枝前后准确度不变的原因有程序有误或者本来的数据本身已经有很强的可分性。R是用于统计分析、绘图的语言和操作环境。 是一个预测模型,分为回归决策树和分类决策树,根据
Python130
python数据统计分析

python数据统计分析

1. 常用函数库  scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了。这个模块被重写并成为了现在独立的statsmodel
Python110
R语言学习之决策树

R语言学习之决策树

R语言学习之决策树决策树最重要的2个问题:决策树的生长问题,决策树的剪枝问题。生长问题又包括了2个子问题:从分组变量的众多取值中选择一个最佳分割点和从众多输入变量中选择当前最佳分组变量;剪枝问题包括2个子问题:预修剪(事先指定树的最大深度,
Python130
R语言向量计算的数学函数汇总2021.1.21

R语言向量计算的数学函数汇总2021.1.21

sum(向量名) :求和max(向量名) :返回向量最大值min(向量名) :返回向量最小值range(向量名) :返回向量中的上界和下界mean(向量名) :返回向量平均值var(向量名) :返回向
Python160
R语言-17决策树

R语言-17决策树

是一个预测模型,分为回归决策树和分类决策树,根据已知样本训练出一个树模型,从而根据该模型对新样本因变量进行预测,得到预测值或预测的分类 从根节点到叶节点的一条路径就对应着一条规则.整棵决策树就对应着一组表达式规则。叶节点就代表该规则下
Python110
R语言进行PCoA分析

R语言进行PCoA分析

#PCoA 分析在R语言中进行主要依赖于以下得包,进行这个分析得主要可以应用于形态学数据得相似与差异性分析。library(ade4)library(ggplot2)library(RColorBrewer)library(vegan)这里
Python150
r语言中怎么把小圆点填充成紫色

r语言中怎么把小圆点填充成紫色

使用polygon进行纯色填充。其中density为填充的阴影线的密度,angle为阴影线的斜率。值得注意的是,当你需要纯色填充时,density和angle可以忽略不写。然后border为边框的颜色。同时border也可以是逻辑。即FAL
Python140
种水平上聚类到的OUT为什么比属少

种水平上聚类到的OUT为什么比属少

聚类分析有两种主要计算方法,分别是凝聚层次聚类(Agglomerative hierarchical method)和K均值聚类(K-Means)。一、层次聚类层次聚类又称为系统聚类,首先要定义样本之间的距离关系,距离较近的归为一类,较远的
Python160
python 机器学习 用什么库

python 机器学习 用什么库

(1)scikit-learn Python下做机器学习,首推scikit-learn。该项目文档齐全、讲解清晰,功能齐备,使用方便,而且社区活跃。(2)Orange机器学习是其的功能之一,主要还是侧重数据挖掘,可以用可视化语言或Pytho
Python100
R语言-KNN算法

R语言-KNN算法

1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本
Python210
R语言ggcorrplot包绘制相关性热图

R语言ggcorrplot包绘制相关性热图

热图是科研论文中一种常见的可视化手段,而在转录组研究领域,我们常常需要分析一些基因与基因之间的相关性,来判断生物样本中是否存在共表达情况,以及共表达基因模块。除了基因集之间,其他方向,比如免疫细胞群体之间相关性,样本的相关性,也常常用相关性
Python130
R语言中curve(dunif(x,0,1)),dunif(x,o,1)是什么意思呢

R语言中curve(dunif(x,0,1)),dunif(x,o,1)是什么意思呢

curve()接受的第一个参数可以是一个关于x(一维变量)的函数,可以直接写成f(x)(f是定义好的函数)。dunif()是均一分布的密度函数,第一个参数是要求密度的点,第二、三的参数给出均一分布的最小最大值。所以合起来就是要画出U(0,1
Python290
r语言S-W和K-S两种正态性检验

r语言S-W和K-S两种正态性检验

Shapiro-Wilk检验用来检验是否数据符合正态分布 ,类似于线性回归的方法一样,是检验其于回归曲线的残差。该方法作者推荐在样本量很小的时候使用,比如N&lt20。但是也有作者推荐在大数据集上使用。该作者将这种修改后的方
Python170
R语言-KNN算法

R语言-KNN算法

1、K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本
Python150