最新发布

# 2023-02-09
HarmonyOs 网络安全配置，允许应用使用明文流量传输
"deviceConfig": { "default": { "process": "xxx", "directLaunch":
# 2023-02-09
鸿蒙抄袭安卓？看这一篇就够了
01什么是 AOSP ？很多人都说鸿蒙是 AOSP 套壳，那么我们首先得明白什么是 AOSP？ AOSP 是"Android Open Source Project&
# 2023-02-09
荣耀机型开启HarmonyOS 2内测，另有17款华为机型即将启动
目前，可以说华为自主研发的鸿蒙HarmonyOS系统正在如火如荼地开展升级及测试工作，而作为华为曾经的子品牌荣耀品牌的机型很多小伙伴都在期待获得HarmonyOS 2的测试，而最新消息来了，荣耀机型开启HarmonyOS内测了。根据最
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
4月27日华为正式推送鸿蒙系统升级。鸿蒙OS系统你真的了解吗？
4月27日晚，华为向部分机型推送了鸿蒙0S系统小规模公测升级，据可靠消息称，华为将在6月推送大规模正式公测升级。很多人收到了华为Harmony OS的推送，根据各个机型的不同，更新包大小也不相同，有的是2.87 GB，有
# 2023-02-09
华为三款新机上市：预装HarmonyOS系统，但不支持5G，3699元起
大家都知道现在的手机市场主要还以5G手机为主，但深受芯片限制的华为也不得不再把4G手机拿出来“炒冷饭”。今日零点，华为多款4G新机正式开售，分别是华为Mate40 Pro 4G、Mate40E 4G以及nova8 Pro 4G。在5G
# 2023-02-09
鸿蒙OS2.0九大新功能，详细玩机技巧
鸿蒙OS适配后，相比EMUI新增了九大功能！赶快保存或者手机搜索玩机技巧。一、HarmonyOs 桌面提供了服务卡片、大文件夹与小艺建议,让操作更便捷、桌面更美观。服务卡片:无需打开应用,可快速预览应用信息或使用常用功能。将不同
# 2023-02-09
HarmonyOS技术特性
最近,随着华为的一批电子设备升级鸿蒙系统,鸿蒙系统的热度也逐渐升高。这里分享一下鸿蒙系统的定位及底层特性,让人们比较深入的认识一下鸿蒙系统。 HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
p50HarmonyOS新桌面有哪些功能？
HarmonyOS 提供服务卡片、大文件夹和小艺建议，让您把重要信息放在眼前，操作更快捷，屏幕也更个性化。P50手机系统为HarmonyOS 2，具体功能如下：状态栏：通过顶部状态栏查看手机状态、通知消息。大文件夹：无需展开文件夹，可一步打

R语言基本数据分析

2023-02-25 09:20:01Python012

R语言基本数据分析,第1张

R语言基本数据分析

本文基于R语言进行基本数据统计分析，包括基本作图，线性拟合，逻辑回归，bootstrap采样和Anova方差分析的实现及应用。

不多说，直接上代码，代码中有注释。

1. 基本作图（盒图，qq图）

#basic plot

boxplot(x)

qqplot(x,y)

2. 线性拟合

#linear regression

n = 10

x1 = rnorm(n)#variable 1

x2 = rnorm(n)#variable 2

y = rnorm(n)*3

mod = lm(y~x1+x2)

model.matrix(mod) #erect the matrix of mod

plot(mod) #plot residual and fitted of the solution, Q-Q plot and cook distance

summary(mod) #get the statistic information of the model

hatvalues(mod) #very important, for abnormal sample detection

3. 逻辑回归

#logistic regression

x <- c(0, 1, 2, 3, 4, 5)

y <- c(0, 9, 21, 47, 60, 63) # the number of successes

n <- 70 #the number of trails

z <- n - y #the number of failures

b <- cbind(y, z) # column bind

fitx <- glm(b~x,family = binomial) # a particular type of generalized linear model

print(fitx)

plot(x,y,xlim=c(0,5),ylim=c(0,65)) #plot the points (x,y)

beta0 <- fitx$coef[1]

beta1 <- fitx$coef[2]

fn <- function(x) n*exp(beta0+beta1*x)/(1+exp(beta0+beta1*x))

par(new=T)

curve(fn,0,5,ylim=c(0,60)) # plot the logistic regression curve

3. Bootstrap采样

# bootstrap

# Application: 随机采样，获取最大eigenvalue占所有eigenvalue和之比，并画图显示distribution

dat = matrix(rnorm(100*5),100,5)

no.samples = 200 #sample 200 times

# theta = matrix(rep(0,no.samples*5),no.samples,5)

theta =rep(0,no.samples*5)

for (i in 1:no.samples)

{

j = sample(1:100,100,replace = TRUE)#get 100 samples each time

datrnd = dat[j,]#select one row each time

lambda = princomp(datrnd)$sdev^2#get eigenvalues

# theta[i,] = lambda

theta[i] = lambda[1]/sum(lambda)#plot the ratio of the biggest eigenvalue

}

# hist(theta[1,]) #plot the histogram of the first(biggest) eigenvalue

hist(theta)#plot the percentage distribution of the biggest eigenvalue

sd(theta)#standard deviation of theta

#上面注释掉的语句，可以全部去掉注释并将其下一条语句注释掉，完成画最大eigenvalue分布的功能

4. ANOVA方差分析

#Application：判断一个自变量是否有影响 (假设我们喂3种维他命给3头猪，想看喂维他命有没有用)

#

y = rnorm(9)#weight gain by pig(Yij, i is the treatment, j is the pig_id), 一般由用户自行输入

#y = matrix(c(1,10,1,2,10,2,1,9,1),9,1)

Treatment <- factor(c(1,2,3,1,2,3,1,2,3)) #each {1,2,3} is a group

mod = lm(y~Treatment) #linear regression

print(anova(mod))

#解释：Df（degree of freedom）

#Sum Sq: deviance (within groups, and residuals) 总偏差和

# Mean Sq: variance (within groups, and residuals) 平均方差和

# compare the contribution given by Treatment and Residual

#F value: Mean Sq(Treatment)/Mean Sq(Residuals)

#Pr(>F): p-value. 根据p-value决定是否接受Hypothesis H0：多个样本总体均数相等(检验水准为0.05)

qqnorm(mod$residual) #plot the residual approximated by mod

#如果qqnorm of residual像一条直线，说明residual符合正态分布，也就是说Treatment带来的contribution很小，也就是说Treatment无法带来收益（多喂维他命少喂维他命没区别）

如下面两图分别是

（左）用 y = matrix(c(1,10,1,2,10,2,1,9,1),9,1)和

（右）y = rnorm(9)

的结果。可见如果给定猪吃维他命2后体重特别突出的数据结果后，qq图种residual不在是一条直线，换句话说residual不再符合正态分布，i.e., 维他命对猪的体重有影响。

@[toc]

假设检验的前提是要满足正态分布和方差齐性

组内平方和SSE：同一组内的数据误差平方和

组间平方和SSA：不同组之间的数据误差平方和

一个分类型自变量

例如四个班级学生的语文成绩，班级是分类型自变量，四个班级是自变量的四个水平

测试班级对成绩的影响

因为p<0.001，说明班级对成绩的影响非常显著

图中跨越0分界线的班级对，有较大可能落在0上，也就是说两个班级之间没有明显差异。其他班级说明都有明显差异。

同一班级在大学三年的三次测试

p<0.001，说明学生成绩在大学三年中有显著差异。球形检验的p-value大于0.05，所以可以认为方差相等。

Mauchly's Test for Sphericity ：适用于重复测量时检验不同测量之间的差值的方差是否相等，用于三次以及三次之上。

Sphericity Corrections ：球形矫正，当方差不相等时进行矫正，矫正方法有the Greenhouse-Geisser (1959), the Huynh-Feldt (1976), 简称GG和HF。

两个分类型自变量

例如探究 词汇量 和 话题熟悉度 对学生作文成绩的影响

词汇量和话题熟悉度两个变量对成绩的影响都很显著，交互项对成绩影响不显著。

探究班级和测试次数对学生成绩的影响

班级和测试次数在原始检验中都很显著，然后交叉项不显著。

但是在球形检验中，推翻了方差齐性的假设，所以tests需要使用球形矫正之后的p值，classes不用。

矫正之前tests的p-value = 3.482406e-04，矫正之后的p-value = 0.001左右。

R语言与统计-1：t检验与秩和检验

方差分析适用于多组均数的比较 （在完全随机设计的实验中，两组均数的t检验和方差分析是完全等价的。但t检验只能用于两组的均数比较，对于三组和三组以上的均数比较，就需要用到方差分析。）

可以看到这个数据集只有两个变量，其中治疗是分类变量（因子型），有5个水平。response是数值型变量。要对每种治疗所对应的response的均值进行比较，就只能用方差分析而不能用t检验。

符合正态分布

要比较均值的数据写～左边，分组变量写右边。p=0.9653，方差齐。

写法同上，方差齐。

需要注意的是，如果检验出方差不齐，我们第一步不是立马选择进行非参数检验，而是首先要判断有无异常值存在，因为异常值对方差的影响很大。当然，到这一步才来检验有无异常值是不符合数据分析的流程的，异常值在进行数据初步处理的时候就因该被发现和处理掉。

方差分析包括单因素方差分析，多因素方差分析，协方差分析，多元方差分析，重复测量数据方差分析。

gplots包的plotmeans函数对上述结果进行可视化

使用ToothGrowth数据集进行演示

aov函数

不考虑supp和dose之间的交互作用的情况。结果显示两个因素都对小鼠牙齿生长影响显著。

考虑两个因素之间的交互作用：将上面的+换成*。结果显示两个因素都对小鼠牙齿生长影响显著而且两者间的互相影响也不容忽视。

可视化

上述结果已经知道了再五组数据中的均值不全相等，下一步想知道哪些相等哪些不等，就要对这五组进行两两比较。

输出的结果：从左往右依次是：两两比较、两两间的差值、lwr是95%可信线的下限，upr是上限。最后是p值。

将结果可视化：

线段中点是均值，两端是95%置信区间，跨过0说明没有显著差异。

在进行方差分析时，所有混杂因素统称为协变量。

检验dose对weight的影响。出生时间gesttime是协变量。

aov后面小括号里写的顺序：结果变量～协变量+自变量。如果要看协变量和自变量之间是否存在交互，在后面写+协变量：自变量。最后是data=数据集。

结果显示两个变量之间不存在交互效应(p=0.17889, >0.05)，可以认为它们的斜率是相同的。

因变量不止一个，但是需要将它们作为一个整体同时进行分析。例如：某种药物对患者血红蛋白浓度，红细胞计数，外周血细胞因子水平等多种因素的影响。

使用 manovs()函数进行性多元方差分析

参考： https://blog.csdn.net/dingming001/article/details/72822270

方差自变量变量班级数据

# 上一篇：java复制对象时字段新增前缀

# 下一篇：为什么要使用 Go 语言？Go 语言的优势在哪里