R语言 数据挖掘-文本分析(1)

Python015

R语言 数据挖掘-文本分析(1),第1张

刚接触R语言一周,和matab不同R作用于数据挖掘的库很多,详解见 R语言数据挖掘包

,下面简介文本分析经常使用到的三个包

tm 为文本挖掘提供综合性处理 Rwordmsg 进行中文分词 wordcloud 统计词云

以第三届泰迪杯A题提供的数据集国美-Sheet1进行文本分析 : 第三届泰迪杯

转化为txt的数据集如下图所示:

生成词云:

用结巴包做分词,Github的地址:https://github.com/qinwf/jieba

用freq()就可以统计出词频了,不过是结果是没有排序的。

1. 可以使用文本分析工具,如R语言中的tm包,来查看关键词聚类里面包含了哪些关键词。

2. 也可以使用机器学习技术,如聚类分析,来查看关键词聚类里面包含了哪些关键词。

3. 可以使用文本挖掘工具,如RapidMiner,来查看关键词聚类里面包含了哪些关键词。

4. 也可以使用自然语言处理技术,如Word2Vec,来查看关键词聚类里面包含了哪些关键词。