关联是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性。关联分析目的是寻找给定数据记录集中数据项之间隐藏的关联关系,描述数据之间的密切度。
几个基本概念
1. 项集
这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Item),则若干项的集合为项集,如{啤酒,尿布}构成一个二元项集。
2. 关联规则
一般记为的形式,X为先决条件,Y为相应的关联结果,用于表示数据内隐含的关联性。如:,表示购买了尿布的消费者往往也会购买啤酒。
关联性强度如何,由三个概念——支持度、置信度、提升度来控制和评价。
例:有10000个消费者购买了商品,其中购买尿布1000个,购买啤酒2000个,购买面包500个,同时购买尿布和面包800个,同时购买尿布和面包100个。
3. 支持度(Support)
支持度是指在所有项集中{X, Y}出现的可能性,即项集中同时含有X和Y的概率:
该指标作为建立强关联规则的第一个门槛,衡量了所考察关联规则在“量”上的多少。通过设定最小阈值(minsup),剔除“出镜率”较低的无意义规则,保留出现较为频繁的项集所隐含的规则。
设定最小阈值为5%,由于{尿布,啤酒}的支持度为800/10000=8%,满足基本输了要求,成为频繁项集,保留规则;而{尿布,面包}的支持度为100/10000=1%,被剔除。
4. 置信度(Confidence)
置信度表示在先决条件X发生的条件下,关联结果Y发生的概率:
这是生成强关联规则的第二个门槛,衡量了所考察的关联规则在“质”上的可靠性。相似的,我们需要对置信度设定最小阈值(mincon)来实现进一步筛选。
具体的,当设定置信度的最小阈值为70%时,置信度为800/1000=80%,而的置信度为800/2000=40%,被剔除。
5. 提升度(lift)
提升度表示在含有X的条件下同时含有Y的可能性与没有X这个条件下项集中含有Y的可能性之比:
该指标与置信度同样衡量规则的可靠性,可以看作是置信度的一种互补指标。
R中Apriori算法
算法步骤:
1. 选出满足支持度最小阈值的所有项集,即频繁项集;
2. 从频繁项集中找出满足最小置信度的所有规则。
>library(arules) #加载arules包
>click_detail =read.transactions("click_detail.txt",format="basket",sep=",",cols=c(1)) #读取txt文档(文档编码为ANSI)
>rules <- apriori(click_detail, parameter =list(supp=0.01,conf=0.5,target="rules")) #调用apriori算法
>rules
set of419 rules
>inspect(rules[1:10]) #查看前十条规则
解释
1)library(arules):加载程序包arules,当然如果你前面没有下载过这个包,就要先install.packages(arules)
2)click_detail =read.transactions("click_detail.txt",format="basket",sep=",",cols=c(1)):读入数据
read.transactions(file, format =c("basket", "single"), sep = NULL,
cols = NULL, rm.duplicates =FALSE, encoding = "unknown")
file:文件名,对应click_detail中的“click_detail.txt”
format:文件格式,可以有两种,分别为“basket”,“single”,click_detail.txt中用的是basket。
basket: basket就是篮子,一个顾客买的东西都放到同一个篮子,所有顾客的transactions就是一个个篮子的组合结果。如下形式,每条交易都是独立的。
文件形式:
item1,item2
item1
item2,item3
读入后:
items
1 {item1,
item2}
2 {item1}
3 {item2,
item3}
single: single的意思,顾名思义,就是单独的交易,简单说,交易记录为:顾客1买了产品1, 顾客1买了产品2,顾客2买了产品3……(产品1,产品2,产品3中可以是单个产品,也可以是多个产品),如下形式:
trans1 item1
trans2 item1
trans2 item2
读入后:
items transactionID
1 {item1}trans1
2 {item1,
item2}trans2
sep:文件中数据是怎么被分隔的,默认为空格,click_detail里面用逗号分隔
cols:对basket, col=1,表示第一列是数据的transaction ids(交易号),如果col=NULL,则表示数据里面没有交易号这一列;对single,col=c(1,2)表示第一列是transaction ids,第二列是item ids
rm.duplicates:是否移除重复项,默认为FALSE
encoding:写到这里研究了encoding是什么意思,发现前面txt可以不是”ANSI”类型,如果TXT是“UTF-8”,写encoding=”UTF-8”,就OK了.
3)rules <- apriori(click_detail,parameter = list(supp=0.01,conf=0.5,target="rules")):apriori函数
apriori(data, parameter = NULL, appearance = NULL, control = NULL)
data:数据
parameter:设置参数,默认情况下parameter=list(supp=0.1,conf=0.8,maxlen=10,minlen=1,target=”rules”)
supp:支持度(support)
conf:置信度(confidence)
maxlen,minlen:每个项集所含项数的最大最小值
target:“rules”或“frequent itemsets”(输出关联规则/频繁项集)
apperence:对先决条件X(lhs),关联结果Y(rhs)中具体包含哪些项进行限制,如:设置lhs=beer,将仅输出lhs含有beer这一项的关联规则。默认情况下,所有项都将无限制出现。
control:控制函数性能,如可以设定对项集进行升序sort=1或降序sort=-1排序,是否向使用者报告进程(verbose=F/T)
补充
通过支持度控制:rules.sorted_sup = sort(rules, by=”support”)
通过置信度控制:rules.sorted_con = sort(rules, by=”confidence”)
通过提升度控制:rules.sorted_lift = sort(rules, by=”lift”)
Apriori算法
两步法:
1. 频繁项集的产生:找出所有满足最小支持度阈值的项集,称为频繁项集;
2. 规则的产生:对于每一个频繁项集l,找出其中所有的非空子集;然后,对于每一个这样的子集a,如果support(l)与support(a)的比值大于最小可信度,则存在规则a==>(l-a)。
频繁项集产生所需要的计算开销远大于规则产生所需的计算开销
频繁项集的产生
几个概念:
1, 一个包含K个项的数据集,可能产生2^k个候选集
2,先验原理:如果一个项集是频繁的,则它的所有子集也是频繁的(理解了频繁项集的意义,这句话很容易理解的);相反,如果一个项集是非频繁的,则它所有子集也一定是非频繁的。
3基于支持度(SUPPORT)度量的一个关键性质:一个项集的支持度不会超过它的子集的支持度(很好理解,支持度是共同发生的概率,假设项集{A,B,C},{A,B}是它的一个自己,A,B,C同时发生的概率肯定不会超过A,B同时发生的概率)。
上面这条规则就是Apriori中使用到的,如下图,当寻找频繁项集时,从上往下扫描,当遇到一个项集是非频繁项集(该项集支持度小于Minsup),那么它下面的项集肯定就是非频繁项集,这一部分就剪枝掉了。
一个例子(百度到的一个PPT上的):
当我在理解频繁项集的意义时,在R上简单的复现了这个例子,这里采用了eclat算法,跟apriori应该差不多:
代码:
item <- list(
c("bread","milk"),
c("bread","diaper","beer","eggs"),
c("milk","diaper","beer","coke"),
c("bread","milk","diaper","beer"),
c("bread","milk","diaper","coke")
)
names(item) <- paste("tr",c(1:5),sep = "")
item
trans <- as(item,"transactions") #将List转为transactions型
rules = eclat(trans,parameter = list(supp = 0.6,
target ="frequent itemsets"),control = list(sort=1))
inspect(rules) #查看频繁项集
运行后结果:
>inspect(rules)
items support
1{beer,
diaper}0.6
2{diaper,
milk} 0.6
3{bread,
diaper}0.6
4{bread,
milk} 0.6
5{beer} 0.6
6{milk} 0.8
7{bread} 0.8
8{diaper} 0.8
以上就是该例子的所有频繁项集,然后我发现少了{bread,milk,diaper}这个项集,回到例子一看,这个项集实际上只出现了两次,所以是没有这个项集的。
规则的产生
每个频繁k项集能产生最多2k-2个关联规则
将项集Y划分成两个非空的子集X和Y-X,使得X ->Y-X满足置信度阈值
定理:如果规则X->Y-X不满足置信度阈值,则X’->Y-X’的规则一定也不满足置信度阈值,其中X’是X的子集
Apriori按下图进行逐层计算,当发现一个不满足置信度的项集后,该项集所有子集的规则都可以剪枝掉了。
我只用过arules和Rweka,后来就不用R做数据挖掘了,直接用weka。其他R包可以上cran上搜索。
题外话:ctree是决策数,算是分类算法,和关联规则不是一个概念吧。当然很久没碰,可能记错了。
第一步:获取要绘图的整洁数据(涉及到数据整洁和操作的知识)第二步:整洁数据做映射操作,确定x,y,color,size,shape,alpha等
第三步:选择合适的几何对象(根据画图的目的、变量的类型和个数)
第四步:坐标系和刻度配置
第五步:标签信息和图例信息
第六步:选择合适的主题
ggplot2的语法包括10个部件。
数据(data)
映射(mapping)
几何对象(geom)
标度(scale)
统计变换(stats)
坐标系(coord)
位置调整(Position adjustments)
分面(facet)
主题(theme)
输出(output)
前3个是必须的,其它部件ggplot2会自动配置,也可以手动配置
ggplot2基本绘图模板:
注意:
1)添加图层的加号(+)只能放在行末尾
2)红色方框里面mapping是全局域,绿色方框里面mapping是局部域,执行先后顺序,先局部域,后全局域
ggplot2画图必要部件-数据,映射和几何对象
2.1 数据
数据(Data)用于画图的整洁数据
library(tidyverse
ggplot()先只提供数据,创建一个空图形。
# ggplot()先提供整洁数据,生成一个空图形
2映射
映射,把数据变量集与图形属性库建立关联。
最常用的映射有:
x:x轴
y:y轴
color:颜色
size:大小
shape:形状
fill:填充
alpha:透明度
以mpg数据集为例,把变量displ和hwy分别映射到x和y,变量drv映射到color,此时图形就有了坐标轴和网格线,color需要在有了几何对象后才能体现出来。
# 映射操作
ggplot(data = mpg, mapping = aes(x = displ,
y = hwy, color = drv))
2.3 几何对象
几何对象是表达数据的视觉对象
不同类型的几何对象是从不同的角度表达数据。
pgglot2提供了50多种“几何对象”,均以geom_xxxx()的方式命名,常用的有:
几何对象很简单,只需要添加图层即可。
例如,以mpg数据集为例,画散点图。
ggplot(data = mpg, mapping = aes(x = displ,
y = hwy,
color = drv)) +
geom_point()层依次叠加,在上图的基础上,再添加一个几何对象:光滑曲线。
#继续增加一个几何对象:光滑曲线
# 写法1
ggplot(data = mpg, mapping = aes(x = displ,
y = hwy,
color = drv)) +
geom_point() +
geom_smooth(se=FALSE)
# 写法2
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
geom_point(aes(color = drv)) +
geom_smooth(se=FALSE)
思考题:
1)写法1和写法2的差异?(全局域和局部域的使用差异)
2)写法2若是要实现写法1的功能,怎么编写代码?
03
标度
ggplot2会自动根据输入变量选择最优的坐标刻度方法,若要手动设置或调整,就需要使用标度函数。
标度函数用来控制几何对象中的标度映射(x轴,y轴或者由color,fill,shape,size产生的图例)。
ggplot2提供丰富的标度函数,常用的有:
拓展功能:scales包提供很多设置刻度标签风格的函数,比如百分数、科学计数法法、美元格式等。
3.1 修改坐标轴刻度及标签
连续变量使用scale_*_continuous()函数,参数breaks设置各个刻度的位置,参数labels设置各个刻度对应的标签。
离散变量使用scale_*_discrete()函数,修改离散变量坐标轴的标签。
时间变量使用scale_x_date()函数设置日期刻度,参数date_breaks设置刻度间隔,date_labels设置标签的日期格式
以mpg数据集为例,修改连续变量坐标轴刻度及标签。
# scale_y_continuous函数
# 对比分析和观察
# 图1
ggplot(mpg, aes(displ, hwy)) +
geom_point()
# 图2
ggplot(mpg, aes(displ, hwy)) +
geom_point() +
scale_y_continuous(breaks = seq(15, 40, by = 10))
# 图3
ggplot(mpg, aes(displ, hwy)) +
geom_point() +
scale_y_continuous(breaks = seq(15, 40, by = 10),
labels = c(" 一五 "," 二五 "," 三五 "))
以mpg数据集为例,修改离散变量的标签
# scale_x_discrete函数
# 对比分析和观察
# 图1
ggplot(mpg, aes(x = drv)) +
geom_bar()
# 图2
ggplot(mpg, aes(x = drv)) +
geom_bar() +
scale_x_discrete(labels = c("4" = " 四驱 ", "f" = " 前驱 ",
"r" = " 后驱 "))
以ggplot2自带的economics数据集为例,修改日期变量。
# scale_x_date函数
# 以ggplot2自带的economics为例
economics %>% glimpse()
# 图1
ggplot(tail(economics, 45), aes(date, uempmed / 100)) +
geom_line()
# 图2
ggplot(tail(economics, 45), aes(date, uempmed / 100)) +
geom_line() +
scale_x_date(date_breaks = "6 months", date_labels = "%Y-%b") +
scale_y_continuous(labels = scales::percent)
3.2 修改坐标轴标签、图例名及图例位置
用labs()函数参数x,y或者xlab(),ylab(),设置x轴,y轴标签。
若用参数color生成了图例,可以在labs()函数用参数color修改图例名。
用theme图层的参数legend.position设置图例的位置。
以mpg数据为例。
# 修改坐标轴标签,图例名和图例位置
mpg
# 图1
ggplot(mpg, aes(displ, hwy)) +
geom_point(aes(color = drv)) +
labs(x = " 引擎大小 (L)", y = " 高速燃油率 (mpg)",
color = " 驱动类型 ") +
theme(legend.position = "top")
# 图2
ggplot(mpg, aes(displ, hwy)) +
geom_point(aes(color = drv)) +
xlab(" 引擎大小 (L)") +
ylab(" 高速燃油率 (mpg)") +
labs(color = " 驱动类型 ") +
theme(legend.position = "top")
# 图3 不需要图例
ggplot(mpg, aes(displ, hwy)) +
geom_point(aes(color = drv)) +
xlab(" 引擎大小 (L)") +
ylab(" 高速燃油率 (mpg)") +
theme(legend.position = "none")
3.3 设置坐标轴的范围
用coord_cartesian()函数参数xlim和ylim,或者用xlim(),ylim()设置x轴和y轴的范围。
以mpg数据集为例。
# 修改坐标轴的范围
# 图1 coord_cartesian()的参数xlim和ylim
ggplot(mpg, aes(displ, hwy)) +
geom_point(aes(color = drv)) +
coord_cartesian(xlim = c(5, 7), ylim = c(10, 30))
# 图2 xlim()和ylim()函数
ggplot(mpg, aes(displ, hwy)) +
geom_point(aes(color = drv)) +
xlim(5, 7) +
ylim(10, 30)
3.4 变换坐标轴
用scale_x_log10()函数变换坐标系,可以保持原始数据的坐标刻度。
# 修改坐标轴的范围
# 图1 coord_cartesian()的参数xlim和ylim
ggplot(mpg, aes(displ, hwy)) +
geom_point(aes(color = drv)) +
coord_cartesian(xlim = c(5, 7), ylim = c(10, 30))
# 图2 xlim()和ylim()函数
ggplot(mpg, aes(displ, hwy)) +
geom_point(aes(color = drv)) +
xlim(5, 7) +
ylim(10, 30)
3.5 设置图形标题
用labs()函数设置图形标题。
参数title 设置正标题
参数subtitle 设置副标题
参数caption 设置脚注标题(默认右下角)
# 设置标题
# mpg数据集为例
p <- ggplot(mpg, aes(displ, hwy)) +
geom_point(aes(color = drv)) +
geom_smooth(se = FALSE) +
labs(title = " 燃油效率与引擎大小的关系图 ",
subtitle = " 两座车 ( 跑车 ) 因重量小而符合预期 ",
caption = " 数据来自 fueleconomy.gov")
p
标题若要居中,采用theme图层设置。
p + theme(plot.title = element_text(hjust = 0.5),
plot.subtitle = element_text(hjust = 0.5))
3.6 设置color、fill颜色
数据的某个维度信息可以通过颜色来表示。
可以直接使用颜色值,建议使用RColorBrewer(调色板)或者colorspace包。
1)连续变量
- 用scale_color_gradient()设置二色渐变色。
# 连续变量
# 图1 scale_color_gradient()函数
ggplot(mpg, aes(displ, hwy, color = hwy)) +
geom_point() +
scale_color_gradient(low = "green", high = "red")
- 用scale_color_distiller()设置调色板中的颜色
# 图2 scale_color_distiller()函数
ggplot(mpg, aes(displ, hwy, color = hwy)) +
geom_point() +
scale_color_distiller(palette = "Set1")
2)离散变量
- 用scale_color_manual()手动设置颜色,还可以修改图例及其标签信息
# 离散变量
# 图1 scale_color_manual()函数
ggplot(mpg, aes(displ, hwy, color = drv)) +
geom_point() +
scale_color_manual(" 驱动方式 ",
values = c("red", "blue", "green"),
breaks = c("4", "f", "r"))
ggplot(mpg, aes(displ, hwy, color = drv)) +
geom_point() +
scale_color_manual(" 驱动方式 ",
values = c("red", "blue", "green"),
labels = c(" 四驱 ", " 前驱 ", " 后驱 "))
-用scale_fill_brewer()调用调色板中的颜色
# 图2 scale_fill_brewer()函数
ggplot(mpg, aes(x = class, fill = class)) +
geom_bar() +
scale_fill_brewer(palette = "Dark2")
.7 添加文字标注
ggrepel包提供了geom_label_repel()函数或者geom_text_repel()函数,为图形添加文字标注。
操作步骤:
第一步:先准备好标记点的数据
第二步:增加文字标注图层,包括标记点的数据和标注的文字给label参数
# 设置文字标注信息
library(ggrepel)
# 选取每种车型 hwy 值最大的样本
best_in_class <- mpg %>%
group_by(class) %>%
slice_max(hwy, n = 1)
best_in_class %>% select(class, model, hwy)
ggplot(mpg, aes(displ, hwy)) +
geom_point(aes(color = class)) +
geom_label_repel(data = best_in_class,
aes(label = model))
04
计变换、坐标系和位置调整
.1 统计变换
统计变换是构建新的统计量而画图。
例如,条形图或直方图,是对数据分组的频数做画图;平滑曲线是对数据拟合模型的预测值画图。
gplot2可以把统计变换直接融入画图中,不必先在对数据做统计变换后再画图。
gplot2提供30多种统计,均以stats_xxx()的方式命名。
1)可在几何对象中直接使用的统计变换,直接使用几何对象就可以了。
能在几何对象创建的,而需要单独使用。
mpg数据集为例。
stat_summary()做统计绘图并汇总。
# 图1 stat_summary()做统计绘图并汇总
p <- ggplot(mpg, aes(x = class, y = hwy)) +
geom_violin(trim = FALSE, alpha = 0.5, color = "green")
p
p + stat_summary(fun = mean,
fun.min = function (x) {mean(x) - sd(x)},
fun.max = function (x) {mean(x) + sd(x)},
geom = "pointrange",
color = "red")
tat_smooth()添加光滑曲线,与geom_smooth()相同。
参数method设置平滑曲线的拟合方法,如lm线性回归、glm广义线性回归、loess多项式回归、gam广义加法模型(mgcv包)、rlm稳健回归(MASS包)等。
参数formula指定平滑曲线方程,如y ~ x, y ~ poly(x, 2), y ~ log(x)等。
参数se设置是否绘制置信区间。
# 图2 stat_smooth()添加平滑曲线
ggplot(mpg, aes(displ, hwy)) +
geom_point() +
stat_smooth(method = "lm",
formula = y ~ splines::bs(x, 3),
se = FALSE)
ggplot(mpg, aes(displ, hwy)) +
geom_point() +
geom_smooth(method = "lm",
formula = y ~ splines::bs(x, 3),
se = FALSE)
4.2 坐标系
ggplot2默认是直角坐标系。
- coord_cartesian()
常用的其它坐标系:
以mpg数据集为例,坐标轴翻转。
# 图1 坐标轴翻转coord_flip()
p <- ggplot(mpg, aes(class, hwy)) +
geom_boxplot()
p
p + coord_flip()
直角坐标下条形图转换为极坐标下玫瑰图。
# 图2 直角坐标条形图-->极坐标玫瑰图
p <- ggplot(mpg, aes(class, fill = drv)) +
geom_bar()
p
p + coord_polar()
4.3 位置调整
条形图的位置调整
# 图1:条形图条形位置调整
ggplot(mpg, aes(class, fill = drv)) +
geom_bar()
ggplot(mpg, aes(class, fill = drv)) +
geom_bar(position = "dodge")
ggplot(mpg, aes(class, fill = drv)) +
geom_bar(position = position_dodge(preserve = "single"))
散点图的散点位置调整
# 图1:散点图的散点位置调整
ggplot(mpg, aes(displ, hwy)) +
geom_point()
ggplot(mpg, aes(displ, hwy)) +
geom_point(position = "jitter")
用patchwork包排布多个图形
library(patchwork)
p1 <- ggplot(mpg, aes(displ, hwy)) +
geom_point()
p2 <- ggplot(mpg, aes(drv, displ)) +
geom_boxplot()
p3 <- ggplot(mpg, aes(drv)) +
geom_bar()
p1 | (p2 / p3)
p1 | p2 | p3
p1 / p2 / p3
p1 / (p2 | p3)
05
分面
利用分类变量把图形分成若干“子图”(面),实际上就是对数据分组后再画图,属于数据分析里面细分和下钻的思想。
5.1 用facet_wrap()函数
封装分面,先生成一维的面板系列,再封装到二维中。
语法形式:~ 分类变量 或者 ~ 分类变量1 + 分类变量2
参数scales设置是否共用坐标刻度,fixed 默认 共用, free 不共用,还可以额通过free_x,free_y单独设置。