R语言学习笔记之聚类分析R语言学习笔记之聚类分析使用k-means聚类所需的包:factoextracluster #加载包library(factoextra)library(cluster)l#数据准备使用内置的R数据集USArrests#load t2023-02-27Python140
R语言怎么检验分布是不是T分布ks.test()实现了KS检验,可以检验任意样本是不是来自给定的连续分布。你这里的用法就是:ks.test(data,pt,df=df) #data是样本的数据,df是要检验的t分布的自由度我们可以用很多方法分析一个单变量数据集的分布。最2023-02-27Python100
python数据分析-聚类分析(转载)聚类分析是一类将数据所对应的研究对象进行分类的统计方法。这一类方法的共同特点是,事先不知道类别的个数与结构;进行分析的数据是表明对象之间的相似性或相异性的数据,将这些数据看成对对象“距离”远近的一种度量,将距离近的对象归入一类,不同类对象之2023-02-27Python120
R语言中的garchm各个参数代表什么在当前图形区域的四个边缘之一,显示文本。mtext(text, side = 3, line = 0, outer = FALSE, at = NA,adj = NA, padj = NA, cex = NA, col = NA, font2023-02-27Python130
数据分析师—技术面试数据分析师—技术面试三月份开始找实习,到现在已经有半年的时间了,在这半年的时间中,该经历的基本上都已经经历,春招实习时候,拿到了7个offer,校招时候,成功的拿下一份心仪的工作,结束了我的秋招旅程。对于面试,技术层面即算法、软件等等,业务2023-02-27Python70
《R语言实战》自学笔记44-t检验数据准备t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n <30),总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均2023-02-27Python140
相关性系数和它的朋友们协方差本身没啥子用,但他是相关系数的计算的垫脚石。 分母是x和y的标准差之积,目的是将结果调整到[-1,1]范围内,不受原始数值大小的影响,只反映趋势 表示相关系数是否具有统计显著性。 随着样本数量的增多,p值逐渐会变小。但如2023-02-27Python150
关于各种排列组合java算法实现方法一 利用二进制状态法求排列组合 此种方法比较容易懂 但是运行效率不高 小数据排列组合可以使用复制代码代码如下: import java util Arrays 利用二进制算法进行全排列 count : count :2023-02-27Python130
DBSCAN算法的Java实现DBSCAN是一种基于密度的聚类算法 它的基本原理就是给定两个参数 ξ和minp 其中 ξ可以理解为半径 算法将在这个半径内查找样本 minp是一个以ξ为半径查找到的样本个数n的限制条件 只要n>=minp 查找到的样本点就是2023-02-27Python140
《R语言实战》自学笔记69-重抽样和自助法数据准备 许多实际情况中统计假设(假定观测数据抽样自正态分布或者其他性质较好的理论分布)并不一定满足,比如数据抽样于未知或混合分布、样本量过小、存在离群点、基于理论分布设计合适的统计检验过于复杂且数学上难以处理等情况,这时基于随机化和2023-02-27Python100
决策树原理与Sklearn参数详解目录1、决策树(Decision Tree)原理 2、Sklearn DecisionTreeClassifiter 参数详解 3、Sklearn DecisionTreeRegresion 参数详解 4、总结12023-02-27Python150
R语言下的subset()函数subset()函数: subset(dataset , subset , select ) dataset 是要进行操作的数据集, subset 是对数据的某些字段进行操作 select 显示指定列(如果不选择则所有列全部2023-02-27Python120
如何用python实现随机森林分类大家如何使用scikit-learn包中的类方法来进行随机森林算法的预测。其中讲的比较好的是各个参数的具体用途。这里我给出我的理解和部分翻译:参数说明:最主要的两个参数是n_estimators和max_features。n_estimat2023-02-27Python170
R语言实现bootstrap和jackknife检验方法写在最前面: 首先需要说一下,本文的bootstrap和jackknife都算是蒙特卡罗方法(Monte Carlo method)的一种。应用广泛的的MCMC链(马尔可夫链蒙特卡洛方法Markov chain Monte Carlo2023-02-27Python210
数学建模中有人用R语言吗一般与统计学相关的建模,R语言就肯定有人用。例如时间序列arima,多元时间序列VAR, VEC,ETS, ESM等等。因为R是统计学家设计的开源代码。另外机器学习的模型也有,例如SVM,随机森林,神经网络,R都可以做一些。当然,简单的线性2023-02-27Python180
《R语言实战》自学笔记44-t检验数据准备t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n <30),总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均2023-02-27Python160
复现详解:纯R代码实现ssGSEA算法评估肿瘤免疫浸润程度GSE112996_merged_fpkm_table.txtGSE112996_series_matrix.txt,把GSE112996_series_matrix.txt解压,得到如下两个文件,把这两个文件放到对应的project文件夹2023-02-27Python110
差异表达1|edgeR和DeSeq21. 过滤低表达的基因仅保留在两个样品或更多样本中CPM>1的基因CPM=Reads(total reads in the sample1,000,000)问题:会受到测序深度的影响 2. 选择一2023-02-27Python130
R语言:十一个统计检验都在这了R语言的各种检验 1、W检验(Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验) 检验数据是否符合正态分布,R函数:shapiro.test(). 结果含义:当p值小于某个显著性水平α(比如0.05)时,则认为2023-02-27Python130
R语言--不均衡问题处理样本不均衡问题是指在机器学习分类任务中,不同类型的样本占比差距悬殊。 比如训练数据有100个样本,其中只有5个正样本,其余均为负样本,这样正样本:负样本=5%:95%,训练数据中负样本过多,会导致模型无法充分学习到正样本的信息,这时候2023-02-26Python200