悬赏R语言作业答案

Python015

悬赏R语言作业答案,第1张

# 一、R基本操作

# 1、将数据文件mydata1.txt按照以下要求整理成标准形式。

#(1)读入数据文件mydata.txt命名为insurance。

insurance<-read.table("mydata1.txt")

head(insurance)

dim(insurance)#192个数据

#(2)将insurance转换为3列的矩阵。

insurance<-matrix(insurance$V1,nrow = 64,ncol = 3)#nrow =192/3=64

insurance

#(3)将insurance转换为数据框。

insurance<-as.data.frame(insurance)

class(insurance)

#(4)将列名命名为"District", "Holders"和"Claims"。

names(insurance)<-c("District", "Holders","Claims")

insurance

#(5)随机无放回抽取50行数据。

sub<-insurance[sample(1:nrow(insurance),50),]#无放回不用设置replace

sub

#(6)将抽样数据写入result1.txt。

write.table(sub,"result1.txt",row.names = FALSE)

######################################################################

# 2、将数据文件mydata2.txt按照以下要求整理成标准形式。

#(1)读入数据文件mydata2.txt命名为iris。

iris<-read.table("mydata2.txt")

head(iris)

dim(iris)#600个数据

#(2)将iris转换为4列的矩阵。

iris<-matrix(iris$V1,nrow = 150,ncol = 4)#nrow =600/3=150

iris

#(3)将iris转换为数据框。

iris<-as.data.frame(iris)

class(iris)

#(4)将列名命名为"Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width"。

names(iris)<-c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width")

iris

#(5)随机无放回抽取90行数据。

sub<-iris[sample(1:nrow(iris),90),]#无放回不用设置replace

sub

#(6)将抽样数据写入result2.txt。

write.table(sub,"result2.txt",row.names = FALSE)

######################################################################

# 3.将数据文件data.csv按照以下要求进行数据预处理。

#(1)读入数据文件data.csv命名为nhanes2。

nhanes2<-read.csv("data.csv")

#(2) 载入缺失值处理所需要的包。

install.packages("lattice")

install.packages("MASS")

install.packages("nnet")

library(lattice)

library(MASS)

library(nnet)

#(3) 判断nhanes2是否存在缺失值。

sum(is.na(nhanes2))

#(4) 利用插补法处理chl变量的缺失值。

sub=which(is.na(nhanes2[,4])==TRUE)#在数据集中chl变量是第4列,返回nhanes2数据集中第4列为NA的行

dataTR<-nhanes2[-sub,]#将第4列不为NA的数存入数据集dataTR

dataTE<-nhanes2[sub,]#将第4列为NA的数存入数据集dataTE中

dataTE[,4]<-sample(dataTR[,4],length(dataTE[,4]),replace = T)#在非缺失值中简单抽样

dataTE

#(5) 将插补法处理后的数据写入result3.txt。

write.table(dataTE,"result3.txt",row.names = FALSE)

######################################################################

######################################################################

#二、函数调用

#1、测得某班学术X(身高(cm))与Y(体重(kg))的数据如下,试画出散点图,建立线性回归方程,并作进一步分析。

# (1) 建立数据集,并画出散点图,考察数据点的分布趋势,看是否呈直线条状分布。

x1<-c(171,175,159,155,152,158,154,164,168,166,159,164)#身高

y1<-c(57,64,41,38,35,44,41,51,57,49,47,46)#体重

#构建数据集

model <- data.frame(x1,y1)

#探索性分析-做散点图查看数据的分布情况:

plot(x1,y1)

# (2)进行回归分析,列出回归方程,画拟合线,并对结果进行解读。

# 用lm()函数构建模型

lm.reg<-lm(y1~ x1)

# 添加回归曲线查看拟合效果

abline(lm.reg)

#模型解读

summary(lm.reg)

# (3)对回归系数进行假设检验。

anova(lm.reg) # 回归模型的方差分析

summary(lm.reg) #回归系数t检验:提取模型计算结果,其中有t检验的结果

# (4)对回归模型进行诊断。

#模型检验对方程进行进一步检验,以检查回归方程是否满足模型的先验条件及模型的稳健性。

par(mfrow=c(2,2))#画布分面

plot(lm.reg)

#结果解读:

#1.左上图:残差与拟合图,理论上散点应该散乱的分布在横线两侧;

#2.右上图:正太Q-Q图,用于检验因变量的正太分布性,若服从正太分布,则散点应分布在一条直线线

#3.左下图:齐方差检验,若满足其方差,则散点在水平线周围随机分布

#4.右下图:独立性检验,即一个样本是否会影响另一个样本

#################################################################

#2、研究某抗心律失常药对电刺激狗右心室致颤阙的影响,实验测得狗静脉注射不同剂量的抗心律失常药与右心室致颤阙的数据如下,试画出散点图,建立线性回归方程,并作进一步分析。

# (1) 建立数据集,并画出散点图,考察数据点的分布趋势,看是否呈直线条状分布。

x <- c(1,3,5,7,9)

y <- c(8.03, 14.97, 19.23, 27.83, 36.23)

#构建数据集

model <- data.frame(x,y)

#探索性分析-做散点图查看数据的分布情况:

plot(model)#画散点图

# (2)进行回归分析,列出回归方程,画拟合线,并对结果进行解读。

# 用lm()函数构建模型

fm <- lm(y ~ x)#建立回归模型

fm

# 添加回归曲线查看拟合效果

abline(fm)# 添加回归曲线至散点图

#模型解读

summary(fm)

# (3)对回归系数进行假设检验。

anova(fm) # 回归模型的方差分析

summary(fm) # 提取模型计算结果,其中有t检验的结果

# (4)对回归模型进行诊断。

#模型检验对方程进行进一步检验,以检查回归方程是否满足模型的先验条件及模型的稳健性。

par(mfrow=c(2,2))#画布分面

plot(fm)

#结果解读:

#1.左上图:残差与拟合图,理论上散点应该散乱的分布在横线两侧;

#2.右上图:正太Q-Q图,用于检验因变量的正太分布性,若服从正太分布,则散点应分布在一条直线线

#3.左下图:齐方差检验,若满足其方差,则散点在水平线周围随机分布

#4.右下图:独立性检验,即一个样本是否会影响另一个样本

##################################################################

# 3、countries数据集含有69个国家和地区的出生率与死亡率。

# (1) 请使用K-均值聚类将样本点聚为3个类别。

countries=read.csv("countries.csv")

head(countries)#查看前6行

names(countries)=c("country","birth","death")#修改变量名称

var=as.character(countries$country)#将变量country转为字符型并赋值给var

for(i in 1:69) row.names(countries)[i]=var[i]#将数据集的行名命名为国家名称

km1=kmeans(countries[,-1],center=3)#用kmeans算法对countries数据集进行聚类

# (2) 输出聚类结果及各类别的中心点坐标。

km1$cluster#获取类别

km1$centers#获取中心点坐标

# (3) 绘制聚类结果将中心点以星号标识。

#画出聚为四类的类别图,标注中心点。

plot(countries[,-1],pch=c(1,2,3))

#将中心点用星号标示出来

points(km1$centers,pch=8,col="red")

#对中心点添加标注

legend(km1$centers[1,1],km1$centers[1,2],"Center_1",bty="n",xjust=0.5,cex=0.8)

legend(km1$centers[2,1],km1$centers[2,2],"Center_2",bty="n",xjust=0.5,cex=0.8)

legend(km1$centers[3,1],km1$centers[3,2],"Center_3",bty="n",xjust=0.5,cex=0.8)

# (4) 判断与中国大陆同属于一个类别的国家和地区有哪些。

cluster_CHINA=km1$cluster[which(countries$country=="CHINA")]

which(km1$cluster==cluster_CHINA)

###############################################################

###############################################################

#三、数据分析

# 1、使用arules软件包中的Groceries数据集,该数据集是某一食品杂货店一个月的真实交易数据,使用R完成以下要求:(软件包:arules;数据集:Groceries; 函数:apriori())

# (1)利用apriori()函数进行关联分析,支持度为0.01,置信度为0.5。

install.packages("arules")

library(arules)

data("Groceries")

rules0<-apriori(Groceries,parameter=list(support=0.01,confidence=0.5))

inspect(rules0[1:10])

# (2)利用sort()函数按照支持度排序。

rules.sorted_sup<-sort(rules0,by="support")

inspect(rules.sorted_sup[1:5])

# (3)捆绑销售:寻找蛋黄酱(mayonnaise)的捆绑商品。(supp=0.001,conf=0.1,minlen=2, maxlen=6)

rules1=apriori(Groceries,parameter=list(minlen=2,maxlen=6,supp=0.001,conf=0.1),appearance=list(rhs="mayonnaise",default="lhs"))

inspect(rules1)

# (4)查看销量最高的商品。

itemsets_apr=apriori(Groceries,parameter=list(supp=0.001,target="frequent itemsets"),control=list(sort=-1))

inspect(itemsets_apr[1:5])

# (5)适合捆绑销售的商品。(supp=0.001,minlen=2, maxlen=3)

itemsets_apr1=eclat(Groceries,parameter=list(supp=0.001,minlen=2,maxlen=3,target="frequent itemsets"),control=list(sort=-1))

inspect(itemsets_apr1[1:5])

# (6)关联规则的可视化(support=0.001,con=0.5)

install.packages("arulesViz")

library(arulesViz)

rules5=apriori(Groceries,parameter=list(support=0.002,con=0.5))

rules5

plot(rules5)

#######################################################################

# 2、根据breast-cancer-wisconsin.csv威斯康星州乳腺癌数据集,通过对数据的分析,提取出关键特征来判断乳腺癌患病情况。(软件包:rpart;函数:rpart()。)

# (1)属性名依次设置为"编号","肿块厚度","肿块大小","肿块形状","边缘黏附","单个表皮细胞大小","细胞核大小","染色质","细胞核常规","有丝分裂","类别"),并将类别为2的设为"良性",为4的设为"恶性"。

install.packages("rpart")

library(rpart)

install.packages("rpart.plot")

library(rpart.plot)

#############加载数据

breast.cancer<-read.csv('breast-cancer-wisconsin.csv',header=F)

head(breast.cancer)

#数据整理

names(breast.cancer)=c("编号","肿块厚度","肿块大小","肿块形状","边缘黏附","单个表皮细胞大小","细胞核大小","染色质","细胞核常规","有丝分裂","类别")

breast.cancer$类别[breast.cancer$类别==2]="良性"

breast.cancer$类别[breast.cancer$类别==4]="恶性"

head(breast.cancer)

# (2)抽取训练数据集为原数据的70%,测试数据集取30%。

#数据预处理(分层抽样,划分训练集和测试集)

#分别计算良性和恶性组中应抽取测试集样本数,记为a,b

a=round(0.3*sum(breast.cancer$类别=="良性"))

b=round(0.3*sum(breast.cancer$类别=="恶性"))

ab #输出a,b值

install.packages("sampling")

library(sampling)

#使用strata函数对数据集中的“分组油耗”变量进行分层抽样

sub=strata(breast.cancer,stratanames="类别",size=c(b,a),method="srswor")

sub #所抽出的所有测试集样本信息

#生成训练集train1和测试集test1

train1=breast.cancer[-sub$ID_unit,]

test1=breast.cancer[sub$ID_unit,]

nrow(train1)nrow(test1) #显示训练集和测试集的行数,检查两者比例是否为7:3

# (3) minsplit=5,建立决策树。

#CART建立分类树

formula_cla=类别~肿块厚度+肿块大小+肿块形状+边缘黏附+单个表皮细胞大小+细胞核大小+染色质+细胞核常规+有丝分裂

cla1=rpart(formula_cla,train1,method="class",minsplit=5)#

cla1

# (4)选择cp=0.05来剪枝。

######修改cp的值

cla2=rpart(formula_cla,train1,method="class",minsplit=5,cp=0.05)

cla2

# (5)画出type为2和4的树图。

rpart.plot(cla1,type=2)#修改type

rpart.plot(cla1,type=4)

# (6)测试数据进行预测,并输出混淆矩阵,给出模型准确率为。

#预测

pre1=predict(cla1,test1,type="class")

pre1

table(test1$类别,pre1)#获取混淆矩阵

#计算样本错误率

error1<-sum(as.numeric(pre1!=test1$类别))/nrow(test1)

error1

###################################################################

# 3、美国科罗拉多州某加油站连续 57 天的OVERSHORTS序列“OVERSHORTS.csv”

# (1) 判断该序列的平稳性与纯随机性。

# (时序图检验、白噪声检验)

install.packages("fUnitRoots")

install.packages("TSA")

install.packages("forecast")

install.packages("zoo")

library(fUnitRoots)

library(TSA)

library(forecast)

library(zoo)

#读取数据

c<-read.csv("OVERSHORTS.csv")

#转换为时间序列

overshort<-ts(c$overshort,start = 1)

#平稳性,纯随机(白噪声检验)

## 绘制序列的时间序列图

plot.ts(overshort, xlab = "time", ylab = "prop")

##对序列做单位根检验

unitrootTest(overshort)

##对序列做白噪声检验

Box.test(overshort, lag = 1, type = "Ljung-Box")

# (2) 如果序列平稳且非白噪声,选择适当模型拟合该序列的发展。(10分)

# (模型的识别、参数估计(模型显著性、模型参数的显著性))

#模型识别

##观察自相关,偏自相关图,模型定阶

par(mfrow=c(1,2))

acf(overshort)###衰减到零是突然的,所以自相关系数1阶截尾

pacf(overshort)### 衰减到零不是突然的,所以偏相关系数托尾

# 推荐模型为 MA(1)

##或者对序列进行模型识别,自动定阶

auto.arima(overshort)# 推荐模型为 MA(1)

#参数估计

###模型检验

x.fit<-arima(overshort,order=c(0,0,1),method="ML")

x.fit

##对残差x.fit$residual进行白噪声检验

for(i in 1:2) print(Box.test(x.fit$residual,lag=6*i))

##P>0.05,接受原假设,即残差为白噪声,所以拟合模型显著有效

####参数检验

###模型参数的显著性检验

t1<--0.8477/0.1206

pt(t1,df=56,lower.tail=T) ###p<0.05参数显著非零

t0<--4.7942/1.0253

pt(t0,df=56,lower.tail=T) ###p<0.05参数显著非零

# (3) 利用拟合模型,预测该加油站未来5天的OVERSHORTS。(10分)

# (模型预测、绘制预测图)

####模型预测

c<-read.csv("OVERSHORTS.csv")

x<-ts(c$overshort,start=1)

x.fit<-arima(x,order=c(0,0,1))

x.fit

x.fore<-forecast(x.fit,h=5)#预测

x.fore

plot(x.fore)

##############################################################

#4、使用是survival软件包中的“pbc”数据集,该数据集记录的是肝硬化数据, 使用R完成一下要求:(软件包:survival;数据集:pbc; 函数:Surv()、survfit()、survdiff()、coxph()、cox.zph(), 将答案保存在“姓名.doc”文件中。)

# (1)生成生存分析对象,拟合生存曲线模型。

install.packages("survival") #安装survival包

library(survival) #加载survival包

#使用survival包自带的“pbc”数据集为例(418*20)

data("pbc")

str(pbc)

head(pbc)

#生成生存分析对象

Sur_Obj<-Surv(pbc$time,pbc$status)

Sur_Obj

#拟合曲线模型

model<-survfit(Sur_Obj~1)

summary(model)

# (2)两种方法绘制生存曲线。

plot(model,ylab = "生存率",xlab="天")

#用survminer进行漂亮的展示

install.packages("survminer")

library(survminer)

ggsurvplot(model, data = pbc)

# (3)进行单因素比较分析,并进行结果解释。

#survdiff(formula)函数进行log-rank检验。

survdiff(Sur_Obj~pbc$trt) #trt是分组条件

# (4)考虑年龄,性别以及trt是否会影响肝硬化的生存时间,进行多因素分析Cox模型的建立,并进行结果解释。

coxmodel<-coxph(Sur_Obj~pbc$age+pbc$sex+pbc$bili)

coxmodel

# (5)模型诊断——PH检验。

zphmodel<-cox.zph(coxmodel)

zphmodel

##############################################################

# 5、life.csv为50位急性淋巴细胞白血病病人的数据,包括:入院治疗时取得外辕血中细胞数X1,淋巴结浸润等级X2,出院后有无巩固治疗X3(1表示有巩固治疗,0表示无巩固治疗);随访后,变量Y=0表示生存期在1年以内,Y=1表示生存时间在1年以上,使用R完成一下要求:(函数:glm(),predict()。)

# (1)建立全变量logistic回归,对模型结果进行解释。

life<-read.csv("life.csv")

#建立全变量logistic回归

glm.sol<-glm(Y~X1+X2+X3, family=binomial, data=life)

#回归模型解读

summary(glm.sol)

# (2)预测当X1=5,X2=2,X3=0时,y的概率是多少?

pre<-predict(glm.sol, data.frame(X1=5,X2=2,X3=0))

p<-exp(pre)/(1+exp(pre))

p

# (3)预测当X1=5,X2=2,X3=1时,y的概率是多少?(6分)

pre<-predict(glm.sol, data.frame(X1=5,X2=2,X3=1))

p<-exp(pre)/(1+exp(pre))

p

# (4)对回归模型参数进行检验,用step()函数做变量筛选。

step(glm.sol)

glm.new<-glm(Y~X2+X3, family=binomial, data=life)

summary(glm.new)

# (5)对筛选后的变量进行建模,预测。

pre<-predict(glm.new, data.frame(X2=2,X3=0))

p<-exp(pre)/(1+exp(pre))

p

pre<-predict(glm.new, data.frame(X2=2,X3=1))

p<-exp(pre)/(1+exp(pre))

p

R语言数据结构主要有以下四种:

向量:一串相同类型的数据,不限于数字,字符,逻辑都可以,单独拿出来的一列。什么是看做一个整体,一个向量里有若干个数据,它们组成一个整体之后,可以拥有一个共同的名字。

以下主要讲向量:

向量就是一串数据,串联在一起,组成一个整体,向量由元素组成。

很长的向量要么从数据框提取一列,或是有规律地生成,如连续的数据:

paste0函数连接两个向量,逗号 , 前后各有一个向量,如字符型和数值型向量。

paste0和paste的区别是:

paste0函数 把两个向量的元素一一对应进行 无缝 连接,而 paste函数 把两个向量的元素一一对应进行 空格 连接。paste函数有默认值为空格,在空格处把空格去掉sep=""引号里把默认的空格去掉,即什么没有,就变成无缝连接,也可以用其它的符号连接sep="/",sep="_"等。

数值型、字符型、逻辑型:只要有字符型在,用c()生成向量为字符型。只有逻辑型和数值型,用c()生成向量为数值型。

c()函数生成向量时,要求为生成同一种数据类型

注意的地方:

变量名 :c()为生成向量函数,一般除字母c外,取单个字母或是单词及缩写,组成变量名的字母之间不要有空格,不能以数字为变量名或是以数字开头,变量名不能是中文名,特殊符号等。

<- 与c()函数之间没有空格。

<- 的快捷键输入:

mac电脑: option 和 - ;

windows电脑: Alt 和 -

= 在任何情况下可替代 <- ,但是 = 除了赋值,还有其它用法,比如函数里参数用法。 <- 不能在任意情况下代替 = 。

强大的计算是体现在批量计算上,先把一些数据组成一个整体,

还是以向量x为单位进行

其中五个重要函数,一定要掌握。

能用函数代替的东西,坚决不用手和眼睛去数,比如length()统计向量元素个数。

结论:unique(x)与x[!duplicated(x)]函数相同

用identical()可以判断两个函数是否相同(数据结构与数据类型是否完全相同)

重点和难点:

x==y :x和对应位置的y相等吗?(x和y里的元素,按顺序一一对应比较,讲究位置对应,两者里第一个元素相同就返TRUE,比较完两个向量的第一位置上的元素,接着比较两个向量第二个位置元素...到两个向量最后)。

x和y不一样长:理解“循环补齐”

结论: 如果x与y的向量元素长度不相等,以长度向量说了算,不是由在==前的向量决定。

x%in%y :x的每个元素在y中存在吗?(x的元素挨个到y里和所有元素比较,在y里有的相同的返回TRUE,不讲究位置,有就是TRUE,没有为FALSE)。比如y向量加了一个元素2,返回还是9个逻辑值,返回的逻辑值是与x一一对应,和y没有关系。

加减乘除,两个向量直接可以进行,等位运算。前提是两个向量必须等长,即元素个数一样。

用paste0或是paste连接两个向量,两个向量的长度(元素个数)不一致,循环补齐。

intersect(x,y),union(x,y),setdiff(x,y),setdiff(y,x),x与y顺序颠倒(setdiff()与%in%有点儿相似)。

[] :取子集符号,将TRUE对应的值挑选出来,FALSE丢弃.

例:在13个数中,取出大于7的数,首先把13个数值组成一个向量x,x>7返回是逻辑值。

取值子集的对象放在中括号的外面,取子集的逻辑值向量放在中括号里面。

单独运行中括号里的向量,中括号里各种条件的返回结果有共同的规律,是一个与x等长的逻辑值向量。

下标:代表在哪个位置上。

符号 : []

按照逻辑值: 中括号里是与x等长的逻辑值向量

按照位置: 中括号里是由x的下标组成的向量(支持反选)

思考:从13个彩色(绿,蓝,黄)球中,选出属于蓝色和绿色的:

使用x %in% y还是x ==y,用x %in% y,不是等位循环补齐运算,%in%比较灵活,可以在很多场景中使用,如3选2,50选2,50选20等。

13个球的颜色赋值给向量x,蓝色和绿色赋值给y。

x %in% y

x[x %in% y]

修改向量的元素,修改x里的第四个元素

注意:R于语言里所有的修改,都要赋值,没有赋值就是没有发生过

把随机函数生成的数永远为一组数据:用随机函数生成向量,后运行set.seed(10086)

x[match(y,x)] 和 x[order(x)]

排序,如何调整元素顺序

结论:sort(x)等于x[order(x)],背诵下来

两个向量没有做关联的操作,可以用order函数排序对应信息

向量匹配排序-match,match函数是连线用的

x[match(y,x)] 的以后用法:以y作为模版,给x调顺序。

match:谁在中括号外面,谁就在后面, x[match(y,x)] ,以y作为模板,用x作为原料去取子集,按照一个顺序取子集,取出来的子集和y一样。

需要背诵的两个用法: x[match(y,x)] 和 x[order(x)]

练习题:在以下x和y表格里如何将y的列名一对一替换为ID

切换Rproj的时候出现弹窗:是否将工作空间保存到 .Rdata ?

答案是:不保存,之前单独保存好脚本和图片,这里出现的提示是否临时保存,不需要保存。

.Rdata ?是什么:

以 . 开头的文件,通常用作配置,系统默认隐藏这类文件

.Rdata 是保存工作空间的默认文件

.History 是保存历史命令的默认文件

如果打开Rstudio特别慢,可能是因为 .Rdata 保存了很大的变量,可以找到 .Rdata 文件将其删除。

在Rproj右下角打开脚本时,编辑器脚本的中文注释出现乱码,解决如下:

以上内容是听 生信技能树 小洁老师的 R语言线上课 ,根据自己的理解记录下来,小洁老师授课非常细心,对不同水平的同学都照顾到,并且补充很多技巧以及注意事项。

之前学习过R语言,那时对向量认识不够深,也没有重视,数据框的列单独拿出来就是一个向量。认真听小洁老师的讲解以及最近跑几个GEO数据集发现学会对向量的熟练操作以及熟练一些重要的函数,在实战过程中会顺利些。

使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个student的Data Frame其中包含ID和Name还有Gender以及Birthdate,那么代码为:

student<-data.frame(ID=c(11,12,13),Name=c("Devin","Edward","Wenli"),Gender=c("M","M","F"),Birthdate=c("1984-12-29","1983-5-6","1986-8-8”))

另外也可以使用read.table() read.csv()读取一个文本文件,返回的也是一个Data Frame对象。读取数据库也是返回Data Frame对象。