在日常工作中,经常会存在多个变量之间存在关联关系,比如学习数学好的同学,物理成绩可能也比较高。在公司中外貌和讨人喜欢的关系往往也比较大,在人事招聘过程中,如果想要更加综合的评价某个人,需要把相关系数比较高的方面进行权重或者均值处理。
如以下案例:
现有30名应聘者来公司应聘,公司为这些应聘者制定了15项指标,分别是:求职信的形式(FL)、外貌(APP)、专业能力(AA)、讨人喜欢(LA)、自信心(SC)、洞察力(LC)、诚实(HON)、推销能力(SMS)、经验(EXP)、驾驶水平(DRV)、事业心(AMB)、理解能力(POT)、交际能力(KJ)和适应性(SUIT)。每项分数是从0到10分,0分最低,10分最高。每位求职者的15项指标如下所示,公司计划只录取前5名申请者,公司到底该如何选择呢?
#读入数据
rt<-read.table("applicant.data")
AVG<-apply(rt,1,mean)
sort(AVG,descreasing=TRUE)
attach(rt)
#找到相关系数高的分为一组,然后取平均值,防止值过大
rt$G1<-(SC+LC+SMS+DRV+AMB+GSP+POT)/7
rt$G2<-(FL+EXP+SUIT)/3
rt$G3<-(LA+HON+KJ)/3
rt$G4<-AA
rt$G5<-APP
AVG<-apply(rt[,16:20], 1, mean)
sort(AVG, decreasing = TRUE)
找出前5名
参考: http://mp.weixin.qq.com/s?__biz=MzIxNjA2ODUzNg==&mid=2651440274&idx=1&sn=7c5b8062891110c191f2463c3f1060c8&chksm=8c73dc45bb04555346d33c0e91449b7603468d09d5b3b945140451e9c259a5995b55f070527d&mpshare=1&scene=24&srcid=040751THZgbr42wORjuPnmR0&sharer_sharetime=1586226101529&sharer_shareid=e7cab4ddb0b83013d3591b3744cb904b#rd数据: https://tianchi.aliyun.com/dataset/dataDetail?dataId=46
查看数据集缺失值情况:
变量time和user_geohash都包含缺失值,其中time包含1个缺失值,user_geohash包含550130个缺失值。
因为user_geohash地理信息在数据收集过程中做过加密转换,所以选择不对缺失值进行处理。
将time列分裂为date和hour列,并转换数据类型:
PV(访问量):即Page View,指网站页面的浏览量或点击量,页面被刷新一次就计算一次。
UV(独立访客):即Unique Visitor,访问网站的一台电脑客户端为一个访客。
1)日访问量分析
2)日访客分析
结果如图所示,pv和uv访问量在双十二期间达到峰值。使用最高uv除以总人数,可得出双十二期间淘宝用户的日活跃率最高为67.5%。
3)小时访问量分析
1、2、3、4分别代表点击、收藏、加购物车和支付。从上图中可以看到点击的次数远高于其他三种行为,以至于其他三种行为的趋势看不出来,所以下图中去掉了行为1的曲线。
从整体上看,四种行为的波动情况基本一致,并且在晚上7点-10点间pv访问量最高。
同时,从下图中也可以看到,行为3(加购物车)的pv总量高于行为2(收藏),行为2又高于行为4(支付)。
1)活跃用户每天购买次数情况分析
淘宝用户消费次数普通在10次以下,因此需要重点关注消费次数在10次以上的用户。
2)活跃用户每天人均消费次数
每天消费总次数 / 每天消费总人数
可以看到每天的平均消费次数一般都在1.2次左右,双十二期间达到最高值,约为1.4。
3)付费率
每日消费总人数 / 每日总活跃人数(每日有操作行为的人数)
用户付费率在6%左右,平均低于6%,双十二期间超过16%。
4)同一时间段用户消费次数分布
大多数用户消费次数为1次,平均消费次数为2.359,75%用户消费次数在3次以下。
复购率 = 有复购行为的用户数 / 有购买行为的用户总数
复购:两天以上有购买行为,但一天内购买两次或以上只算一次购买行为
将数据按日期排序,可以看到数据集的时间跨度为从2014-11-18到2014-12-18之间,正好一个月的时间:
先按date和user_id去重,然后按user_id计数,大于1时即为复购行为:
一个月之内的复购率为46.7%,多数用户在一个月内的购买次数为1-5次。
反映用户行为状态从起点(点击)到终点(支付)各阶段的转化率情况。
将数据按商品(item_category)和用户行为分组,然后计算各行为的次数。
用户点击后,大约有4.013%的概率会加入购物车,而加入购物车后大约有35.135%的概率会支付。
数据内容为1990年加州人口普查中所收集的信息。具体内容包括:各个区域内的收入的中位数,人口数量,房龄中位数,家庭数,总共房间数,总共卧室数,经纬度。这里的分析任务是完成房屋价值预测的多元回归分析,但不考虑数据集中的多重共线性将会使得回归非常不稳定,预测值较小的变化则会导致结果极大的变化。此时正是主成分分析发挥作用的时候。因而主成分分析可以作为回归分析或者分类等分析内容的基础步骤。
---------
#读取数据
>houses<- read.csv(file="C:....\houses.txt",header=FALSE,sep="")
#查看数据
>head(houses)
V1 V2 V3 V4 V5 V6 V7 V8 V9
1 452600 8.3252 41 880 129 322 126 37.88 -122.23
2 358500 8.3014 21 7099 1106 2401 1138 37.86 -122.22
3 352100 7.2574 52 1467 190 496 177 37.85 -122.24
4 341300 5.6431 52 1274 235 558 219 37.85 -122.25
5 342200 3.8462 52 1627 280 565 259 37.85 -122.25
6 269700 4.0368 52 919 213 413 193 37.85 -122.25
#命名
>names(houses)<-c("MVAL","MINC","HAGE","ROOMS","BEDRMS","POPN","HHLDS","LAT","LONG")
#数据描述
>summary(houses)
##从数据描述中看到变量中有很大的差异,故需要对数据进行规则化处理。
#数据规则化
>houses$MINC_Z<-(houses$MINC-mean(houses$MINC))/sd(houses$MINC)
#其他数据同样方式处理
>houses$LONG_Z<-(houses$LONG-mean(houses$LONG))/sd(houses$LONG)
#取出规则化的数据,命名为数据集houses_z
>houses_z<- subset(houses,select = c(10:17))
#通过相关性矩阵,探索变量之间的相关性,
>cor(houses_z)
#随机选择90%的数据用于训练集,剩下10%的数据用作训练集
>choose<-runif(dim(houses_z)[1],0,1)
>train.house<-houses_z[which(choose>=.1),]
#加载库psych
>library(psych)
#训练集数据进行主成分分析
>pcal<-principal(train.house,nfactors = 8,rotate="none",scores = TRUE)
#特征值,负载矩阵和解释变异
>pcal$loadings
##从解释变异中可以看到第一主成分解释了48.8%的数据变异。那么应该提取多少个主成分?特征值为1表示该成分解释至少一个变量价值的变异性,因而只有特征值大于1的主成分应该保留,这样我们有三个主成分应当保存,然而我们看到主成分4的特征变量为0.823,非常接近1, 那么是否应该保留这个主成分?这里可以去参考其他的标准。第一个标准就是解释变异标准,及分析人员定义他认为的主成分应该具有多大的变异程度,是85%,90%还是更高,如果要求高于95%,那么应该保存第四个主成分,因为累计到第四个主成分解释了96.3%的变异。除此之外,还有一种标准就是坡度图标准,坡度图标准就是曲线开始变得平缓时候的那一点就是最多主成分的取值。如下图展示,按照坡度图标准,提取不超过4个主成分。
#坡度图
>plot(pcal$values,type="b")
##结果解读:
主成分一:按照权重成分的相关系数,我们选取房间数,卧室数,人口数,家庭数。可以将其归类为大小主成分
主成分二:由地理位置信息组成的经纬度信息
主成分三:平均收入构成收入因素
主城分四:平均房龄构成房龄因素、
#针对测试数据集进行主成分分析
##该步骤即通过样本分裂来进行主成分的验证,来看训练数据集的结果是否对整体数据内容具有概括性。从如下结果能够看到,虽然测试集结果中的权重和解释变异与训练集中并非完全一致。但主成分的提取和权重的解释是与训练集一致的。
>pca2<-principal(test.house,nfactors=4,rotate = "none",scores = TRUE)
>pca2$loadings