1、下载tmcn、[Rwordseg]、Rweibo的源码。
2、tmcn无依赖关系,直接使用。Rwordseg依赖于rJava。
3、该包需要预先安装Java环境。未曾安装Java,安装Java,安装Java(及PATH的配置)过程不再赘述。
4、Rweibo依赖于RCurl、rjson、XML、digest四个包。这四个依赖包同样不能直接安装,需要先从科大源下载源码:(按包名搜索RCurl、XML、rjson、digest),再安装。
一、文本挖掘定义文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。
二、文本挖掘步骤
1)读取数据库或本地外部文本文件
2)文本分词
2.1)自定义字典
2.2)自定义停止词
2.3)分词
2.4)文字云检索哪些词切的不准确、哪些词没有意义,需要循环2.1、2.2和 2.3步骤
3)构建文档-词条矩阵并转换为数据框
4)对数据框建立统计、挖掘模型
5)结果反馈
三、文本挖掘所需工具
文本挖掘将使用R语言实现,除此还需加载几个R包,它们是tm包、tmcn包、Rwordseg包和wordcloud包。
四、实战
本文所用数据集来自于sougou实验室数据。