QQ文本分析—R语言

Python017

QQ文本分析—R语言,第1张

1、参考文献

设置超链接: 时间分布和成员分析  ; QQ聊天内容  ; recharts安装包官方介绍  

2、读入QQ聊天记录

文本内容

QQ文本读入的形式从左到右分别为“时间”,“用户”,“聊天信息

时间信息涉及年份,日期以及具体时间。可以根据时间信息分析群的活跃分布情况

特殊的第十行

可以发现第十行的时间,用户都为空格

文件上传分两行表示。第九行出现“[图片]郭樱分享文件”;第十行只出现文件名称

3、时间分析

3.1、一星期分布

QQ 群的聊天兴致星期分布:周二,周六聊天最多;一般周一,周日很少聊天

想知道周二总共有过多少次发言吗?

把鼠标点在周二的“柱形”上就可以知道了

3.2、24小时分布

聊天兴致在一天中的分布

交流高峰期一般在上班时间:上午9点到11点~下午14点到17点;夜间讲话不多

3.3、每天的发言次数分布

如何知道“折线图”中,高峰期是哪一天呢?

把鼠标点在高峰期就可以知道了

点击右上角柱形图标,即可展示为柱形图

每天的发言次数按从大到小排列,可以知道2016年11月24日是个重大的日子

其实是一个很普通的周四(不过节,不放假)

小技巧

想要在页面里展现更多行吗?

在show 10 entries里选择想要的页数吧

4、聊天内容分析

4.1、初次分词结果

根据 搜狗词库日常聊天用语词库 对数据进行分词。

从分词结果可以发现“的”,“了”,“好”,“就”,“吗”等连接词,语气词高频度出现,所以需要对一些无用信息进行删除

5.2、字符长度大于1的词汇

排列前三的为图片、表情、你们

“李主任”出现44次(search中输入李主任即可查询);“月报”出现43次。一看就是个正规的群

5.3、删除初次分词中无意义信息

删除一些无意信息后,“图片”,“表情”仍为主要词汇

看来“吃”是群里的主要话题

5.4、展示清除后,排名前1500的词

同时删除“图片”,“表情”两词

原始数据存储在一个excel文件里,这个excel文件里有三个子表格,每一个子表格的数据如下:

总的数据格式

现在的需要是做如下的图

比如这里我新建了一个子表格sheet4,数据最终的格式如下

这里用到的是标准误

这里新学到一个知识点是,柱子默认是不贴底的,如果要贴底使用函数 scale_y_continuous(expand = expansion(mult = c(0,0.1)))

mult对应的两个值一个是控制下面,一个是控制上面,贴底就设置为0 就可以了

小明的数据分析笔记本

分析思路

1 merge获得总细菌信息,结合样品数信息,制作细菌样品矩阵/表,0填充

2 利用循环统计每对配对样品的细菌呈现情况(是否贡献),丰度都大于0的细菌记为1,否则仍是0

3 获得总细菌样品呈现表,统计每个细菌的总共现次数

4 对前10绘制柱形图

参考:

Discordant transmission of bacteria and viruses from mothers to babies at birth. Microbiome 2019