R语言学习DAY04:回归分析

Python07

R语言学习DAY04:回归分析,第1张

R本身是一门统计语言,主要用于统计分析,前面的语法部分算是基础,接下来开始进入统计模型应用。首先从最常用的回归分析说起。

有关线性回归分析模型的基本假定需要注意:1)关于随机干扰项的高斯-马尔科夫定理;2)关于自变量的:不存在共线性;3)关于模型的:模型设定正确。

用 glm 函数建立广义线性模型,用参数 family 指定分布类型,logistic模型指定为binomial

用 predict 函数进行预测, predict(model, data, type = 'response'

此外,还可以用 mlogit 包中的 mlogit 函数做多分类变量logistic回归, rms 包中的 lrm 函数做顺序变量logistic回归, glmnet 包中的 glmnet 函数做基于正则化的logistic回归

20200505·Kony·Win10

变量(various) :用于存储值保留的内存位置,变量被分配了R对象,并且R对象的数据类型成为变量的数据类型。

R对象类型(Types of R-objects):

转换数据类型

判断转换类型转换函数

is.numeric() as.numeric() #数字

is.character()as.character()#字符

is.vector() as.vector() #向量

is.matrix() as.matrix() #矩阵

is.data.frame() as.data.frame() #数据框

is.factor() as.factor() #因子

is.logical() as.logical()#逻辑数据

以上每一行的两个函数都是定义相同类型的函数

?不是很懂raw

向量 的下标是从1开始的

取某个元素:x[2](如果X包括名称,注意:x[2]与x[[2]]的区别;

取某中几个:x[c(1,2,0)]

取某个/几个元素,利用-:x[-n]#取除去第n个元素之外的其他元素

sort()输出排序后的结果;order();输出排序后的各个向量位置,如下所示:

x[n] 第n个元素

x[-n] 除了第n个元素的x

x[1:n] 前n个元素

x[-(1:n)] 第n+1至最后的元素

x[c(1,4,2) ] 指定元素

x["name"] 名为"name"的元素

x[x >3] 所有大于3的元素

x[x >3 &x <5] 区间(3,5)的元素

x[x %in% c ("a","and","the")] 给定组中的元素

data >20 是一个表示式,它的返回值是一个有TRUE和FALSE 构成的逻辑向量,最终只选取了TRUE对应的元素,所以data 中大于20的元素被选了出来。

%in%这个操作符只返回逻辑向量TRUE 或者FALSE,而且返回值应该与%in%这个操作符前面的向量程度相等。也就是说它相当于遍历了C里面的一个个元素,判断它们是否在B中出现过,然后返回是或者否即可。

而match(C,B)的结果就很不一样了,它的返回结果同样与前面的向量等长,但是它并非返回逻辑向量,而是遍历了C里面的一个个元素,判断它们是否在B中出现过,如果出现就返回在B中的索引号,如果没有出现,就返回NA。

笔记参考:R语言基础--数据类型之向量 https://www.jianshu.com/p/7b47a6bbb7a9

R将清洁数据定义为:每个变量的数据存储在自身的列中,每个观测值的数据存储在其自身的行中。整洁数据是进行数据再加工的基础。

得到清洁数据,是为了实现

一般可用于日志数据或日期时间型数据的拆分