R语言进行文本挖掘

Python027

R语言进行文本挖掘,第1张

介绍使用tidytext进行文本挖掘。

整洁数据应该是这样的

对于整洁的文本数据,储存在每行中的数据通常是单个单词,但也可以是n-gram,句子或段落。

使用unnest_tokens函数对数据进行处理

简单介绍一下unnest_tokens函数:

unnest_tokens这里使用的两个基本参数。首先,输出的列名,上面是word,然后是文本来输入列(text在本例中)。

使用之后unnest_tokens,我们将每行拆分

文本分析的流程:

就是写了傲慢与偏见的那个人,说实话这部作品的确值得一看

数据来自于Jane Austen的 janeaustenr 包

linenumber 对应的是多少行, chapter 对应的是第多少章。

要将其作为一个整洁的数据集来处理,还需要将句子转化成文更加基本的格式

此函数使用 tokenizers 包将原始数据框中的每一行文本分隔为标记。默认标记化用于单词,但其他选项包括字符,n-gram,句子,行,段落或正则表达式模式周围的分隔。

也就是修改下面这个参数:

既然数据是每行一个字的格式,我们可以使用像dplyr这样的整洁工具来操作它。通常在文本分析中,我们会想要删除停用词停用词是对分析无用的词,通常是非常常见的词,例如英语中的“the”,“of”,“to”等等。我们可以用一个删除停用词(保存在tidytext数据集中stop_words)anti_join()。

我们也可以使用 dplyr count() 来查找所有书籍中最常见的单词。

可以看见,最常见的单词是 miss

进行可视化:

因为我们一直在使用整洁的工具,所以我们的字数存储在一个整洁的数据框中。这允许我们将它直接传递给ggplot2包,例如创建最常见单词的可视化

R语言如何从外部读取数据到R中

R语言可以从键盘,文本,excel,access,数据库,专业处理软件sas

一、使用键盘的输入

mydata<-data.frame(age=numeric(0),gender=character(0),weight=numeric(0))

mydata<-edit(mydata)

二、读入带有分隔符文本格式的数据

data<-read.table(文件,header=true/false,sep="delimeter",row.names=列名)

其中文件可以有很多选项的

file()gzfile(),bzfile(),等一些压缩文件以及url(http://,ftp://,smtp://)

例子:

默认的时候,字符串会自动使用factor转化为数值型

data<-read.table("student.csv",header=TRUE,sep=",",row.names="studentid",stringsAsFactors=FALSE)

三、将xls文件导入到R中

(1)将xls变成csv的格式导入

(2)在Windows系统中,你也可以使用RODBC包来访问Excel文件。

library(RODBC)

channel <- odbcConnectExcel("student.xls")

mydataframe<-sqlFetch(channel,"Sheet1")

odbcClose(channel)

四、抓取网页并且提取信息

五、导入spss数据

library(Hmisc)

mydata<-spss.get("mydata.sav",use.value.labels=TRUE)

六、导入SAS数据

将sas格式的数据转换为csv格式的数据 然后用read.table()形式导入

七、导入关系型数据库的数据

R中有多种面向关系型数据库管理系统(DBMS)的接口,包括Microsoft SQL Server、Microsoft Access、MySQL、Oracle、PostgreSQL、DB2、Sybase、Teradata以及SQLite。其中一些包通过原生的数据库驱动来提供访问功能,另一些则是通过ODBC或JDBC来实现访问的。

(1)使用ODBC的方式导入数据