r如何导出所有的QQ聊天记录

Python034

r如何导出所有的QQ聊天记录,第1张

呵呵,如何导出所有的聊天记录?嗯。你可以选择一个人的QQ点击进入,然后打开消息记录,最后找到右上角一个小喇叭的图标。点击进入消息管理器,之后你就可以调出所有人的聊天记录了。。希望对你有所帮助。。

1、参考文献

设置超链接: 时间分布和成员分析  ; QQ聊天内容  ; recharts安装包官方介绍  

2、读入QQ聊天记录

文本内容

QQ文本读入的形式从左到右分别为“时间”,“用户”,“聊天信息”

时间信息涉及年份,日期以及具体时间。可以根据时间信息分析群的活跃分布情况

特殊的第十行

可以发现第十行的时间,用户都为空格

文件上传分两行表示。第九行出现“[图片]郭樱分享文件”;第十行只出现文件名称

3、时间分析

3.1、一星期分布

QQ 群的聊天兴致星期分布:周二,周六聊天最多;一般周一,周日很少聊天

想知道周二总共有过多少次发言吗?

把鼠标点在周二的“柱形”上就可以知道了

3.2、24小时分布

聊天兴致在一天中的分布

交流高峰期一般在上班时间:上午9点到11点~下午14点到17点;夜间讲话不多

3.3、每天的发言次数分布

如何知道“折线图”中,高峰期是哪一天呢?

把鼠标点在高峰期就可以知道了

点击右上角柱形图标,即可展示为柱形图

每天的发言次数按从大到小排列,可以知道2016年11月24日是个重大的日子

其实是一个很普通的周四(不过节,不放假)

小技巧

想要在页面里展现更多行吗?

在show 10 entries里选择想要的页数吧

4、聊天内容分析

4.1、初次分词结果

根据 搜狗词库日常聊天用语词库 对数据进行分词。

从分词结果可以发现“的”,“了”,“好”,“就”,“吗”等连接词,语气词高频度出现,所以需要对一些无用信息进行删除

5.2、字符长度大于1的词汇

排列前三的为图片、表情、你们

“李主任”出现44次(search中输入李主任即可查询);“月报”出现43次。一看就是个正规的群

5.3、删除初次分词中无意义信息

删除一些无意信息后,“图片”,“表情”仍为主要词汇

看来“吃”是群里的主要话题

5.4、展示清除后,排名前1500的词

同时删除“图片”,“表情”两词

云图中的每个字的大小与出现的频率或次数成正比,词云图的统计意义不是特别大,主要是为了美观,用于博客和网站比较常见。

导入数据

library(tm)

library(wordcloud)

Text1<-paste(scan("Text1.txt",what=character(0),sep=""),collapse="")

Text2<-paste(scan("Text2.txt",what=character(0),sep=""),collapse="")

TEXT<-data.frame(c(Text1,Text2),row.names=c("Text1","Text2"))

TEXT_title<-data.frame(doc_id=row.names(TEXT),text=TEXT$c.Text1..Text2.

复制

)#这里的doc_id不可替换成别的词

创建数据框格式的文本

#创建数据框格式的文本,第一列是doc_id,第二列是文章内容

TEXT_ds<-DataframeSource(TEXT_title)

复制

构建语料库

Corpus<-VCorpus(TEXT_ds)

复制

针对语料库文本转换

思路:删除语料库中的标点符号,字母转换为小写,删除数字,删除空白字符,过滤掉停止词库之后转换为纯文本。

Corpus<-tm_map(Corpus,removePunctuation)#删除标点符号

Corpus<-tm_map(Corpus,tolower)#转换为小写

Corpus<-tm_map(Corpus,removeNumbers)#删除数字

Corpus <- tm_map(Corpus,stripWhitespace)#删除空白字符

Corpus <- tm_map(Corpus,function(x){removeWords(x,stopwords())})

Corpus <- tm_map(Corpus,PlainTextDocument)#转换为纯文本

复制

针对语料库断字处理,生成词频权重矩阵

Term_matrix<-TermDocumentMatrix(Corpus)

>Term_matrix

<<TermDocumentMatrix (terms: 2462, documents: 2)>>

Non-/sparse entries: 3215/1709

Sparsity : 35%

Maximal term length: 16

Weighting : term frequency (tf)

复制

查看Term_matrix得知2篇文章共2456个字,稀疏度为35%,最大词长度是16。

#计算频率

Term_matrix<-as.matrix(Term_matrix)

复制

#对词频权重矩阵的表头进行命名

colnames(Term_matrix)<-c("Text1","Text2")

复制

#把矩阵转为便于后续统计分析的数据框

Data<-data.frame(Term_matrix)

复制

#导出两篇文章的频率分析结果,文件名为Term_matrix

write.csv(Data,'Term_matrix.csv')

复制

读取文件

read.csv('Term_matrix.csv',header=TRUE,row.names=1)

复制

#分开绘制两篇文章的词云

wordcloud(row.names(Data),Data$Text1,min.freq=9.5,col=brewer.pal(8,"Dark2"),rot.per=0.3)

复制

wordcloud(row.names(Data),Data$Text2,min.freq=9.5,col=brewer.pal(8,"Dark2"),rot.per=0.2)

复制

#两篇文章对比

comparison.cloud(Data,max.words=250,random.order=FALSE,colors=c("#00B2FF","#084081"))

复制

#通过设置max.word的大小决定显示图中文本的多少。

两篇文章共有词部分

commonality.cloud(Data,max.words=120,random.order=FALSE,colors="#66A61E")

复制

绘制星形图

将Data数据计算频率Freq=n/sum(n),根据频率绘制星形图。

wordcloud2(Data1,size=0.4,shape='star')

复制

本文参与 腾讯云自媒体分享计划,欢迎热爱写作的你一起参与!

本文章分享自微信公众号

菜鸟学数据分析之R语言

作者:刘晓雪

原始发表时间:2020-07-25

如有侵权,请联系 [email protected] 删除。

展开阅读全文

腾讯云图

文章来自专栏

菜鸟学数据分析之R语言

77 篇文章22 人关注

订阅

评论 (0)

写评论

暂无人发表评论

相关文章

Python数据可视化 词云图 绘制词云的方法总结

pyecharts是基于echarts的python库,能够绘制多种交互式图表,和其他可视化库不一样,pyecharts支持链式调用。

(数据科学学习手札71)在Python中制作个性化词云图

词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中地高频词:

【数据挖掘 | 可视化】 WordCloud 词云(附详细代码案例)

在七夕节中,博主写了一篇为女友收集QQ聊天记录做可视化词云的文章获得广泛好评,一直有小伙伴希望能出一篇教程,今天他来啦! 一文带你速通词云?‍♂️

R-wordcloud: 词云图

好几位读者来信说,《R语言数据可视化之美》(增强版)的词云图的代码有问题,我今天更新了一轮,这主要原因在R语言及其包的更新,导致源代码有可能运行错误。R语言的优...

WordCloud词云库快速入门(一)

wordcloud是优秀的词云展示第三方库,以词语为基本单位,通过图形可视化的方式,更加直观和艺术的展示文本。

Day10.如何给⽑不易的歌曲做词云展示

我们经常需要对分析的数据提取常⽤词,做词云展示。⽐如⼀些互联⽹公司会抓取⽤户的画像,或者每⽇讨论话题的关键词,形成词云并进⾏展示。

词云绘制,推荐三种 Python包外加一个在线网站!

本篇文章先介绍几种制作词云的 Python 库,分别是 WordCloud、StyleCloud、Pyecharts;再加一个在线词云制作网站;最后通过代码实操...

关于词云可视化笔记一(wordcloud和英文词汇可视化)

一直比较关注数据可视化这块,对于分词和词的可视化却始终不明就里,直到看到词云,当时惊为天人,不过词云的制作还是非常麻烦,直到2017年Python走近我的视野中...

词云图,看过没做过?快来,教你秘籍

今天我们来说一说可视化的问题,如果这个时候我们要对频数进行可视化的话,我们首先想到的应该是一个什么样子的图形呢?很多人可能会说是柱状图。还有一些科研喵们,看过我...

使用pyecharts绘制词云图-淘宝商品评论展示

词云图是一种用来展现高频关键词的可视化表达,通过文字、色彩、图形的搭配,产生有冲击力地视觉效果,而且能够传达有价值的信息。

WordCloud 中英文词云图绘制,看这一篇就够了

摘要: 当我们手中有一篇文档,比如书籍、小说、电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种...

Python带你看不一样的《青春有你2》小姐姐之评论内容可视化

详细介绍和用法可以去github看:https://github.com/fxsjy/jieba,这里不多做介绍,只介绍本次用到的

NLP快速入门:手把手教你用wordcloud做词云

导读:在上一章节介绍在Python环境下调用HanLP包进行分词的基础上,本文将介绍如何使用wordcloud绘制词云。尽管目前市面上已经有很多成熟的在线交互词...

WordCloud 中英文词云图绘制,看这一篇就够了

摘要: 当我们手中有一篇文档,比如书籍、小说、电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种...

一起用Python来看看川普今年在推特上都发了些什么

川普作为一个推特狂人,上台以来一共发了一万多条推特,本文爬取了川普在2020年的全部推特内容并将其绘制成了词云图。

词云图wordcloud学习笔记

词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。

excel也那绘制词云图哦!还有很多的可视化图表可挑选!

excel是老牌的数据可视化软件了,很多方面都已经很完美了,很多的图表都可以轻松绘制出来,但如果想要做的好看,就需要一些技巧了。

更多文章

社区活动

腾讯云自媒体分享计划

入驻社区,可分享总价值百万资源包

邀请好友加入自媒体分享计划

邀请好友,同享奖励 30 / 100 / 180 元云服务器代金券

长按识别或截图保存

关注腾讯云开发者

Copyright © 2013-2022

Tencent Cloud. All Rights Reserved.

腾讯云 版权所有

点赞

3

评论

0