r语言下载不了tm

Python012

r语言下载不了tm,第1张

r语言下载不了tm,解决办法如下。

1、下载tmcn、[Rwordseg]、Rweibo的源码。

2、tmcn无依赖关系,直接使用。Rwordseg依赖于rJava。

3、该包需要预先安装Java环境。未曾安装Java,安装Java,安装Java(及PATH的配置)过程不再赘述。

4、Rweibo依赖于RCurl、rjson、XML、digest四个包。这四个依赖包同样不能直接安装,需要先从科大源下载源码:(按包名搜索RCurl、XML、rjson、digest),再安装。

一、文本挖掘定义

文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。

二、文本挖掘步骤

1)读取数据库或本地外部文本文件

2)文本分词

2.1)自定义字典

2.2)自定义停止词

2.3)分词

2.4)文字云检索哪些词切的不准确、哪些词没有意义,需要循环2.1、2.2和 2.3步骤

3)构建文档-词条矩阵并转换为数据框

4)对数据框建立统计、挖掘模型

5)结果反馈

三、文本挖掘所需工具

文本挖掘将使用R语言实现,除此还需加载几个R包,它们是tm包、tmcn包、Rwordseg包和wordcloud包。

四、实战

本文所用数据集来自于sougou实验室数据。