QQ文本分析—R语言

Python011

QQ文本分析—R语言,第1张

1、参考文献

设置超链接: 时间分布和成员分析  ; QQ聊天内容  ; recharts安装包官方介绍  

2、读入QQ聊天记录

文本内容

QQ文本读入的形式从左到右分别为“时间”,“用户”,“聊天信息”

时间信息涉及年份,日期以及具体时间。可以根据时间信息分析群的活跃分布情况

特殊的第十行

可以发现第十行的时间,用户都为空格

文件上传分两行表示。第九行出现“[图片]郭樱分享文件”;第十行只出现文件名称

3、时间分析

3.1、一星期分布

QQ 群的聊天兴致星期分布:周二,周六聊天最多;一般周一,周日很少聊天

想知道周二总共有过多少次发言吗?

把鼠标点在周二的“柱形”上就可以知道了

3.2、24小时分布

聊天兴致在一天中的分布

交流高峰期一般在上班时间:上午9点到11点~下午14点到17点;夜间讲话不多

3.3、每天的发言次数分布

如何知道“折线图”中,高峰期是哪一天呢?

把鼠标点在高峰期就可以知道了

点击右上角柱形图标,即可展示为柱形图

每天的发言次数按从大到小排列,可以知道2016年11月24日是个重大的日子

其实是一个很普通的周四(不过节,不放假)

小技巧

想要在页面里展现更多行吗?

在show 10 entries里选择想要的页数吧

4、聊天内容分析

4.1、初次分词结果

根据 搜狗词库日常聊天用语词库 对数据进行分词。

从分词结果可以发现“的”,“了”,“好”,“就”,“吗”等连接词,语气词高频度出现,所以需要对一些无用信息进行删除

5.2、字符长度大于1的词汇

排列前三的为图片、表情、你们

“李主任”出现44次(search中输入李主任即可查询);“月报”出现43次。一看就是个正规的群

5.3、删除初次分词中无意义信息

删除一些无意信息后,“图片”,“表情”仍为主要词汇

看来“吃”是群里的主要话题

5.4、展示清除后,排名前1500的词

同时删除“图片”,“表情”两词

输入为一个vector,我们以a <- seq(1, 250, 1)做为示例数据

利用qqnorm函数直接绘制出了如下正态检验qq图

还可以进一步使用qqline命令在qq图上加上标准直线

注:qqline的默认算法为向量a上四分位数和下四分位数对应两个点的连线

Step 1: 首先我们算出vector中每一个数对应的百分位数

  在向量a中,数字1对应的累积比例(即小于等于数字1的频率)为1/length(a) = 0.04,数字250对应的累积比例为250/length(a) = 100%

  

Step 2: 根据累积比例数计算出正态分布对应的百分位数值

  直接绘制点图即为qqplot图

  

Step 3: 可以查看一下q值发现,最后的q值为Inf

  这是因为百分位100%对应的正态分布数值为无穷大,所以最后得出的图与R自带的qqnorm的稍微有一点点区别,这是因为在内置的qqnorm函数中对累积百分数进行了调整,为了避免inf的出现,使用 t <- (rank(a) -0.5)/length(a) 调整后得出的结果与qqnorm的结果图就完全一致了。

Step 4: 绘制标准直线

  如果是依据标准正态分布做的qq图,则标准直线截距为mean(a),斜率为sd(a)

[图片上传失败...(image-50be7a-1512789490785)]

  如果是依据(mean(a), var(a))正态分布做的qq图,则标准直线为y=x

[图片上传失败...(image-4e2370-1512789490785)]

pp plot横轴为实际累积概率,即上文qq plot中的变量t

纵轴为期望累积的概率,标准直线为 y=x

[图片上传失败...(image-682bd0-1512789490785)]

结果大致呈一条直线则说明大致服从正态分布

快速计算累积百分数的方法:

[图片上传失败...(image-de8e63-1512789490785)]

参考:

https://wenku.baidu.com/view/c661ebb365ce050876321319.html

http://data.library.virginia.edu/understanding-q-q-plots/

http://www.cnblogs.com/xianghang123/archive/2012/08/08/2628623.html

https://d.cosx.org/d/18521-18521