如何学习r语言知乎

2023-02-21 23:30:02Python011

如何学习r语言知乎,第1张

第一，理解代码的含义。

第二，执行代码。

这里是R进行数据分析的一些代码，希望对你有用。

1.1导入数据

install.packages('xslx')

library(xlsx)

Sys.setlocale("LC_ALL", "zh_cn.utf-8")

a=read.xlsx2('d:/1.xlsx',1,header=F)

head(a)显示前六行

class(a$y)/str(a)查看列/全集数据类型

a$y=as.numeric(a$y)转换数据类型

1.2方差分析(F test)

with(a,tapply(liqi,tan,shapiro.test))正态性检验

library(car)leveneTest(liqi~tan,a)方差齐性检验

q=aov(liqi~tan*chong,a)方差分析(正态型)

summary(q)

TukeyHSD(q)多重比较

1.3卡方测验(Pearson Chisq)

a1=summarySE(a,measurevar='y', groupvars=c('x1','x2'))卡方检验(逻辑型/计数型)

aa=a1$y

aaa=matrix(a2,ncol=2)

aaa= as.table(rbind(c(56,44), c(36,64), c(48,52),c(58,42)))

dimnames(aaa)= list(group=c("不添加抗性","不添加敏感","添加抗性","添加敏感"),effect=c("存活","死亡"))

aaa=xtabs(data=a,~x+y)

chisq.test(a)误差分析(卡方测验，Pearson法)

install.packages("rcompanion")

library(rcompanion)

pairwiseNominalIndependence(a)多重比较

1.4线性模型及其误差分析(Wald Chisq)

q=lm(data=a,y~x1*x2)一般线性模型(正态性)

summary(q)

q=glm(data=a,y~x1*x2,family = gaussian(link='identity'))广义线性模型(正态性)

summary(q)

q=glm(data=a,y~x1*x2,family = binomial(link='logit'))广义线性模型(逻辑型，二项分布)

summary(q)

q=glm(data=a,y~x1*x2,family = poisson(link='log'))广义线性模型(计数型，泊松分布)

summary(q)

install.packages('lmerTest')一般线性混合效应模型(正态性)

library(lmerTest)

install packages(‘lme4’)

library(lme4)

q=lmer(data=a,y~x1*(1|x2))

q=lmer(data=a,y~x1*(1|x2),family = gaussian(link='identity'))广义线性混合效应模型(正态性)

q=glmer(data=a,y~x1*(1|x2),family = binomial(link='logit'))广义线性混合效应模型(逻辑型，二项分布)

q=glmer(data=a,y~x1*(1|x2),family = poisson(link='log'))广义线性混合效应模型(计数型，泊松分布)

summary(q)

install.packages('car')

install.packages('openxlsx')

library(car)

install.packages('nlme')

library(nlme)

Anova(q,test='Chisq')线性模型的误差分析(似然比卡方测验,Wald法)

lsmeans(q,pairwise~chuli,adjust = "tukey")线性模型的多重比较(tukey法)

你是想做数据分析对吧？

建议啊，先学R，R能应付很多统计问题了

再去学python，python语法当然了必须先掌握，这个很简单，然后就是python有两个

跟数据分析密切相关的包，如果你想做数据分析，请把重点放在两个包上

再学sql吧，毕竟单纯的学sql没有什么意义，因为什么也做不了

sql 建议先学sql server，有了python的语法基础学sqlserver很简单，当然没有基础也能学，只是有一门语言基础学起来更容易

学完sql server 再学oracle，oracle一定要学，其他数据库根据需求来学，比如Nosql就非常好

有人说Python和R的区别是显而易见的，因为R是针对统计的，python是给程序员设计的，其实这话对Python多多少少有些不公平。2012年的时候我们说R是学术界的主流，但是现在Python正在慢慢取代R在学术界的地位。不知道是不是因为大数据时代的到来。

Python与R相比速度要快。Python可以直接处理上G的数据；R不行，R分析数据时需要先通过数据库把大数据转化为小数据（通过groupby）才能交给R做分析，因此R不可能直接分析行为详单，只能分析统计结果。所以有人说：Python=R+SQL/Hive，并不是没有道理的。

Python的一个最明显的优势在于其胶水语言的特性，很多书里也都会提到这一点，一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange canve 中的决策树分析50万用户10秒出结果，用R几个小时也出不来，8G内存全部占满)。但是，凡事都不绝对，如果R矢量化编程做得好的话（有点小难度），会使R的速度和程序的长度都有显著性提升。

R的优势在于有包罗万象的统计函数可以调用，特别是在时间序列分析方面，无论是经典还是前沿的方法都有相应的包直接使用。

相比之下，Python之前在这方面贫乏不少。但是，现在Python有了pandas。pandas提供了一组标准的时间序列处理工具和数据算法。因此，你可以高效处理非常大的时间序列，轻松地进行切片/切块、聚合、对定期/不定期的时间序列进行重采样等。可能你已经猜到了，这些工具中大部分都对金融和经济数据尤为有用，但你当然也可以用它们来分析服务器日志数据。于是，近年来，由于Python有不断改良的库（主要是pandas），使其成为数据处理任务的一大替代方案。

做过几个实验：

1. 用python实现了一个统计方法，其中用到了ctypes，multiprocess。

之后一个项目要做方法比较，又用回R，发现一些bioconductor上的包已经默认用parallel了。（但那个包还是很慢，一下子把所有线程都用掉了，导致整个电脑使用不能，看网页非常卡~）

2. 用python pandas做了一些数据整理工作，类似数据库，两三个表来回查、匹配。感觉还是很方便的。虽然这些工作R也能做，但估计会慢点，毕竟几十万行的条目了。

3. 用python matplotlib画图。pyplot作图的方式和R差异很大，R是一条命令画点东西，pylot是准备好了以后一起出来。pyplot的颜色选择有点尴尬，默认颜色比较少，之后可用html的颜色，但是名字太长了~。pyplot 的legend比R 好用多了，算是半自动化了。pyplot画出来后可以自由拉升缩放，然后再保存为图片，这点比R好用。

总的来说Python是一套比较平衡的语言，各方面都可以，无论是对其他语言的调用，和数据源的连接、读取，对系统的操作，还是正则表达和文字处理，Python都有着明显优势。而R是在统计方面比较突出。但是数据分析其实不仅仅是统计，前期的数据收集，数据处理，数据抽样，数据聚类，以及比较复杂的数据挖掘算法，数据建模等等这些任务，只要是100M以上的数据，R都很难胜任，但是Python却基本胜任。

结合其在通用编程方面的强大实力，我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。

但世上本没有最好的软件或程序，也鲜有人能把单一语言挖掘运用到极致。尤其是很多人早先学了R，现在完全不用又舍不得，所以对于想要学以致用的人来说，如果能把R和Python相结合，就更好不过了，很早看过一篇文章——让R与Python共舞，咱们坛子里有原帖，就不多说了，看完会有更多启发。

BTW：如果之前没有学过R，可以先学Python然后决定是不是学R，如果学了R，学Python的时候会更快上手。

数据线性模型广义语言

# 上一篇：c语言中的四舍五入怎么做？

# 下一篇：net上支持哪些语言