用R语言进行关联分析

Python07

用R语言进行关联分析,第1张

用R语言进行关联分析

关联是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性。关联分析目的是寻找给定数据记录集中数据项之间隐藏的关联关系,描述数据之间的密切度。

几个基本概念

1. 项集

这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Item),则若干项的集合为项集,如{啤酒,尿布}构成一个二元项集。

2. 关联规则

一般记为的形式,X为先决条件,Y为相应的关联结果,用于表示数据内隐含的关联性。如:,表示购买了尿布的消费者往往也会购买啤酒。

关联性强度如何,由三个概念——支持度、置信度、提升度来控制和评价。

例:有10000个消费者购买了商品,其中购买尿布1000个,购买啤酒2000个,购买面包500个,同时购买尿布和面包800个,同时购买尿布和面包100个。

3. 支持度(Support)

支持度是指在所有项集中{X, Y}出现的可能性,即项集中同时含有X和Y的概率:

该指标作为建立强关联规则的第一个门槛,衡量了所考察关联规则在“量”上的多少。通过设定最小阈值(minsup),剔除“出镜率”较低的无意义规则,保留出现较为频繁的项集所隐含的规则。

设定最小阈值为5%,由于{尿布,啤酒}的支持度为800/10000=8%,满足基本输了要求,成为频繁项集,保留规则;而{尿布,面包}的支持度为100/10000=1%,被剔除。

4. 置信度(Confidence)

置信度表示在先决条件X发生的条件下,关联结果Y发生的概率:

这是生成强关联规则的第二个门槛,衡量了所考察的关联规则在“质”上的可靠性。相似的,我们需要对置信度设定最小阈值(mincon)来实现进一步筛选。

具体的,当设定置信度的最小阈值为70%时,置信度为800/1000=80%,而的置信度为800/2000=40%,被剔除。

5. 提升度(lift)

提升度表示在含有X的条件下同时含有Y的可能性与没有X这个条件下项集中含有Y的可能性之比:

该指标与置信度同样衡量规则的可靠性,可以看作是置信度的一种互补指标。

R中Apriori算法

算法步骤:

1. 选出满足支持度最小阈值的所有项集,即频繁项集;

2. 从频繁项集中找出满足最小置信度的所有规则。

>library(arules) #加载arules包

>click_detail =read.transactions("click_detail.txt",format="basket",sep=",",cols=c(1)) #读取txt文档(文档编码为ANSI)

>rules <- apriori(click_detail, parameter =list(supp=0.01,conf=0.5,target="rules")) #调用apriori算法

>rules

set of419 rules

>inspect(rules[1:10]) #查看前十条规则

解释

1)library(arules):加载程序包arules,当然如果你前面没有下载过这个包,就要先install.packages(arules)

2)click_detail =read.transactions("click_detail.txt",format="basket",sep=",",cols=c(1)):读入数据

read.transactions(file, format =c("basket", "single"), sep = NULL,

cols = NULL, rm.duplicates =FALSE, encoding = "unknown")

file:文件名,对应click_detail中的“click_detail.txt”

format:文件格式,可以有两种,分别为“basket”,“single”,click_detail.txt中用的是basket。

basket: basket就是篮子,一个顾客买的东西都放到同一个篮子,所有顾客的transactions就是一个个篮子的组合结果。如下形式,每条交易都是独立的。

文件形式:

item1,item2

item1

item2,item3

读入后:

items

1 {item1,

item2}

2 {item1}

3 {item2,

item3}

single: single的意思,顾名思义,就是单独的交易,简单说,交易记录为:顾客1买了产品1, 顾客1买了产品2,顾客2买了产品3……(产品1,产品2,产品3中可以是单个产品,也可以是多个产品),如下形式:

trans1 item1

trans2 item1

trans2 item2

读入后:

items transactionID

1 {item1}trans1

2 {item1,

item2}trans2

sep:文件中数据是怎么被分隔的,默认为空格,click_detail里面用逗号分隔

cols:对basket, col=1,表示第一列是数据的transaction ids(交易号),如果col=NULL,则表示数据里面没有交易号这一列;对single,col=c(1,2)表示第一列是transaction ids,第二列是item ids

rm.duplicates:是否移除重复项,默认为FALSE

encoding:写到这里研究了encoding是什么意思,发现前面txt可以不是”ANSI”类型,如果TXT是“UTF-8”,写encoding=”UTF-8”,就OK了.

3)rules <- apriori(click_detail,parameter = list(supp=0.01,conf=0.5,target="rules")):apriori函数

apriori(data, parameter = NULL, appearance = NULL, control = NULL)

data:数据

parameter:设置参数,默认情况下parameter=list(supp=0.1,conf=0.8,maxlen=10,minlen=1,target=”rules”)

supp:支持度(support)

conf:置信度(confidence)

maxlen,minlen:每个项集所含项数的最大最小值

target:“rules”或“frequent itemsets”(输出关联规则/频繁项集)

apperence:对先决条件X(lhs),关联结果Y(rhs)中具体包含哪些项进行限制,如:设置lhs=beer,将仅输出lhs含有beer这一项的关联规则。默认情况下,所有项都将无限制出现。

control:控制函数性能,如可以设定对项集进行升序sort=1或降序sort=-1排序,是否向使用者报告进程(verbose=F/T)

补充

通过支持度控制:rules.sorted_sup = sort(rules, by=”support”)

通过置信度控制:rules.sorted_con = sort(rules, by=”confidence”)

通过提升度控制:rules.sorted_lift = sort(rules, by=”lift”)

Apriori算法

两步法:

1. 频繁项集的产生:找出所有满足最小支持度阈值的项集,称为频繁项集;

2. 规则的产生:对于每一个频繁项集l,找出其中所有的非空子集;然后,对于每一个这样的子集a,如果support(l)与support(a)的比值大于最小可信度,则存在规则a==>(l-a)。

频繁项集产生所需要的计算开销远大于规则产生所需的计算开销

频繁项集的产生

几个概念:

1, 一个包含K个项的数据集,可能产生2^k个候选集

2,先验原理:如果一个项集是频繁的,则它的所有子集也是频繁的(理解了频繁项集的意义,这句话很容易理解的);相反,如果一个项集是非频繁的,则它所有子集也一定是非频繁的。

3基于支持度(SUPPORT)度量的一个关键性质:一个项集的支持度不会超过它的子集的支持度(很好理解,支持度是共同发生的概率,假设项集{A,B,C},{A,B}是它的一个自己,A,B,C同时发生的概率肯定不会超过A,B同时发生的概率)。

上面这条规则就是Apriori中使用到的,如下图,当寻找频繁项集时,从上往下扫描,当遇到一个项集是非频繁项集(该项集支持度小于Minsup),那么它下面的项集肯定就是非频繁项集,这一部分就剪枝掉了。

一个例子(百度到的一个PPT上的):

当我在理解频繁项集的意义时,在R上简单的复现了这个例子,这里采用了eclat算法,跟apriori应该差不多:

代码:

item <- list(

c("bread","milk"),

c("bread","diaper","beer","eggs"),

c("milk","diaper","beer","coke"),

c("bread","milk","diaper","beer"),

c("bread","milk","diaper","coke")

)

names(item) <- paste("tr",c(1:5),sep = "")

item

trans <- as(item,"transactions") #将List转为transactions型

rules = eclat(trans,parameter = list(supp = 0.6,

target ="frequent itemsets"),control = list(sort=1))

inspect(rules) #查看频繁项集

运行后结果:

>inspect(rules)

items support

1{beer,

diaper}0.6

2{diaper,

milk} 0.6

3{bread,

diaper}0.6

4{bread,

milk} 0.6

5{beer} 0.6

6{milk} 0.8

7{bread} 0.8

8{diaper} 0.8

以上就是该例子的所有频繁项集,然后我发现少了{bread,milk,diaper}这个项集,回到例子一看,这个项集实际上只出现了两次,所以是没有这个项集的。

规则的产生

每个频繁k项集能产生最多2k-2个关联规则

将项集Y划分成两个非空的子集X和Y-X,使得X ->Y-X满足置信度阈值

定理:如果规则X->Y-X不满足置信度阈值,则X’->Y-X’的规则一定也不满足置信度阈值,其中X’是X的子集

Apriori按下图进行逐层计算,当发现一个不满足置信度的项集后,该项集所有子集的规则都可以剪枝掉了。

dplyr包包含了各种关联查询的函数,如inner_join,left_join,full_join,rigth_join......

library(dplyr)

library("nycflights13")

# Drop unimportant variables so it's easier to understand the join results.

flights2 <-

flights %>%

select(year:day,tailnum, carrier)

flights2 %>%

left_join(airlines,by= "carrier")

生态学涉及多元统计方法,特别是排序和聚类,都是明确或不明确地基于所有可能对象或者变量之间的比较。这些比较通常采用关联测度(association

meansures)(常称为系数或者指数)的形式,不管是样方还是变量之间的比较都是基于他们组成的矩阵,因此选择合适的关联测度非常重要。

在任何分析之前,需要问下面这些问题:

在两个对象中同一值为零,在这两个对象中可能蕴含的意义不同,但零值增加了对象的相似性。就物种数据而言,两个样方中都没有一个物种可能有不同的解释:不适合生存或者还没有迁徙到此地?因此物种存在的信息比物种缺失的信息更有意义。依据双零问题也可以区分两类关联测度:视双零为相似的依据(同其他值)的为对称系数,反之为非对称系数。在大部分情况下,应该优先选择非对称系数,除非可以确定引起双缺失的原因相同,例如在已知物种组成群落或生态同质区域内的控制实验。

这里可能比较难理解,简单来说就是两个样方都出现0值,但是造成0值的原因可能不一样,所以需要优先考虑非对称系数(除非可以确定引起0值的原因相同)

变量可以是定性变量(名义的或分类的,二元的或多级的),也可以是半定量变量(序数的)或定量变量(离散的或连续的)。所以类型的变量均存在关联系数,其中大部分可以归为两类:二元变量的关联系数(二元系数,指被分析的变量是0-1的二元数据,并非关联测度数值为0-1的数据)和定量变量的关联系数(以下简称为数量系数)

在Q模式分析中,我们需要用到6个程序包:stats(安装基础程序时已经载入)、vegan、ade4、adespatial、cluster和FD等等。

在R中,所有的相似测度方阵可以转化为相异测度方阵,距离方阵(R里面属于"dist"类对象)对角线的值(每个对象与自身的距离)均为0

定量的物种数据通常需要使用非对称的距离测度。在物种数据分析方面,常用的系数有Bray-Curtis相异系数、弦(chord)距离、Hellinger距离和卡方距离。

在R中实现:

当可用的仅仅是二元(有-无)物种数据,或多度的数据不适用,或包含不确定的定量数据时,可使用有-无(0-1)数据进行分析。

关联矩阵一般作为中间实体,很少用于直接研究。然而,如果对象不多,直接展示关联矩阵也很有用,能够将数据的主要特征可视化。

建议使用coldiss()函数可视化相异矩阵。coldiss()函数会使用一个能重新排列矩阵的函数order.single()(属于gclus包),该函数可以根据对象之间的距离沿着对角线重新将对象排位。但是必须先安装gclus包。

在未转化的相异矩阵中,数量多的物种之间的多度差异与数量少的物种之间的多度差异有同等权重。

这些案例均是处理物种数据,Doubs样带具有强烈的生态梯度特征(例如氧含量和硝酸盐浓度)。Doubs样带的环境背景很清楚,可以假设在特定的某一段河流,物种的缺失可能是某种相同的原因造成的,因此可以计算对称系数的关联矩阵。

对双零有明确解释的定量数据,欧氏距离是对称距离测度的最佳选择。注意欧氏距离的值没有上限,但受变量纲量影响较大,所以前面我们的数据转化就派上用场了。

此处用标准化后的环境因子变量(env)计算样方的欧氏距离。先剔除dfs变量(离源头距离),因为它属于空间变量而非环境因子变量。同样使用coldiss()函数可视化距离矩阵。

注意:可以利用scale()函数对环境变量进行快速标准化

相异矩阵的热图很合适快速比较,例如,可以同时绘制基于物种多度和基于环境因子的Hellinger距离图,为了便于比较,两个图均选择等数量的分级

欧氏距离理所应当然可以用于计算基于地理坐标变量的地理距离矩阵。

地理坐标可以是一维或者二维的直角坐标系(笛卡儿坐标),其单位也可以多种多样(例如cm、m、km属于相同投影带的UTM坐标)。如果是球体系统坐标(经纬度),在计算欧氏距离之前必须先转化。SoDA程序包内geoXY()函数可以完成球坐标系统的专业。需要注意的是,标准化数据会改变两个维度的比率,因此一般地理坐标(x-y)不应该标准化(如果需要可以标准化)

对于二元数据,最简单的对称相似测度是"简单匹配系数S1",对于每组样方,S1是 双1的数量加上双0的数量除以变量数

Gower相似系数当作一种对称指数;当数据框内一个变量被当做一个因子时,最简单的匹配规则被应用,即如果一个因子在两个对象中有相同的水平,表示该对象对相似指数为1,反之为0。Gower相异指数可以利用cluster程序包内daisy()函数计算。应避免使用vegdist()函数计算Gower相异系数,因此该函数只适用与定量数据和有-无数据计算,对多级变量并不适用。

只要每个变量给予合适的定义,daisy()函数就可以处理混合变量的数据。当数据中存在缺失值时,该函数会自动排除与含有缺失值样方对的计算。

FD程序包里gowdis()函数是计算Gower相似系数最完善的函数,可以计算混合变量(包括非对称的二元变量)的距离,也可以像daisy()函数一样设置变量的权重和处理缺失值。