设置超链接: 时间分布和成员分析 ; QQ聊天内容 ; recharts安装包官方介绍
2、读入QQ聊天记录
文本内容
QQ文本读入的形式从左到右分别为“时间”,“用户”,“聊天信息”
时间信息涉及年份,日期以及具体时间。可以根据时间信息分析群的活跃分布情况
特殊的第十行
可以发现第十行的时间,用户都为空格
文件上传分两行表示。第九行出现“[图片]郭樱分享文件”;第十行只出现文件名称
3、时间分析
3.1、一星期分布
QQ 群的聊天兴致星期分布:周二,周六聊天最多;一般周一,周日很少聊天
想知道周二总共有过多少次发言吗?
把鼠标点在周二的“柱形”上就可以知道了
3.2、24小时分布
聊天兴致在一天中的分布
交流高峰期一般在上班时间:上午9点到11点~下午14点到17点;夜间讲话不多
3.3、每天的发言次数分布
如何知道“折线图”中,高峰期是哪一天呢?
把鼠标点在高峰期就可以知道了
点击右上角柱形图标,即可展示为柱形图
每天的发言次数按从大到小排列,可以知道2016年11月24日是个重大的日子
其实是一个很普通的周四(不过节,不放假)
小技巧
想要在页面里展现更多行吗?
在show 10 entries里选择想要的页数吧
4、聊天内容分析
4.1、初次分词结果
根据 搜狗词库日常聊天用语词库 对数据进行分词。
从分词结果可以发现“的”,“了”,“好”,“就”,“吗”等连接词,语气词高频度出现,所以需要对一些无用信息进行删除
5.2、字符长度大于1的词汇
排列前三的为图片、表情、你们
“李主任”出现44次(search中输入李主任即可查询);“月报”出现43次。一看就是个正规的群
5.3、删除初次分词中无意义信息
删除一些无意信息后,“图片”,“表情”仍为主要词汇
看来“吃”是群里的主要话题
5.4、展示清除后,排名前1500的词
同时删除“图片”,“表情”两词
原始数据存储在一个excel文件里,这个excel文件里有三个子表格,每一个子表格的数据如下:
总的数据格式
现在的需要是做如下的图
比如这里我新建了一个子表格sheet4,数据最终的格式如下
这里用到的是标准误
这里新学到一个知识点是,柱子默认是不贴底的,如果要贴底使用函数 scale_y_continuous(expand = expansion(mult = c(0,0.1)))
mult对应的两个值一个是控制下面,一个是控制上面,贴底就设置为0 就可以了
小明的数据分析笔记本
分析思路1 merge获得总细菌信息,结合样品数信息,制作细菌样品矩阵/表,0填充
2 利用循环统计每对配对样品的细菌呈现情况(是否贡献),丰度都大于0的细菌记为1,否则仍是0
3 获得总细菌样品呈现表,统计每个细菌的总共现次数
4 对前10绘制柱形图
参考:
Discordant transmission of bacteria and viruses from mothers to babies at birth. Microbiome 2019