对于整洁的文本数据,储存在每行中的数据通常是单个单词,但也可以是n-gram,句子或段落。
使用unnest_tokens函数对数据进行处理
简单介绍一下unnest_tokens函数:
unnest_tokens这里使用的两个基本参数。首先,输出的列名,上面是word,然后是文本来输入列(text在本例中)。
使用之后unnest_tokens,我们将每行拆分
文本分析的流程:
就是写了傲慢与偏见的那个人,说实话这部作品的确值得一看
数据来自于Jane Austen的 janeaustenr 包
linenumber 对应的是多少行, chapter 对应的是第多少章。
要将其作为一个整洁的数据集来处理,还需要将句子转化成文更加基本的格式
此函数使用 tokenizers 包将原始数据框中的每一行文本分隔为标记。默认标记化用于单词,但其他选项包括字符,n-gram,句子,行,段落或正则表达式模式周围的分隔。
也就是修改下面这个参数:
既然数据是每行一个字的格式,我们可以使用像dplyr这样的整洁工具来操作它。通常在文本分析中,我们会想要删除停用词停用词是对分析无用的词,通常是非常常见的词,例如英语中的“the”,“of”,“to”等等。我们可以用一个删除停用词(保存在tidytext数据集中stop_words)anti_join()。
我们也可以使用 dplyr count() 来查找所有书籍中最常见的单词。
可以看见,最常见的单词是 miss
进行可视化:
因为我们一直在使用整洁的工具,所以我们的字数存储在一个整洁的数据框中。这允许我们将它直接传递给ggplot2包,例如创建最常见单词的可视化
原文链接
R语言可以读取很多文件,其中以txt文本文件最为灵活,为什么呢,txt文件可以以任意符号作为分隔符,比如“,”,“\t”,空格,甚至`“……&¥¥%¥”`等任意自定义的分隔符号。
这里先把工作空间切换到D盘下面,默认的一般是C盘的文档,我们要有分层管理文件的概念,否则我们还是一个合格的程序员吗?
>setwd('D:\\')
读取文本文件主要用read.table(filePath,header = ,sep=)
filePath就是文件路径,header表示文件是否有头部,我这个文件没有头部,值就为false,sep表示文件是以什么符号作为分隔符号。
头部是什么意思呢?
现在这里有4个文件,分别以空格,逗号,制表符,“/”作为分隔符,下面分别将其读取:
>dat <- read.table('1.txt',header = FALSE,sep = ' ')
>dat2 <- read.table('2.txt',header = FALSE,sep = ',')
>dat3 <- read.table('3.txt',header = FALSE,sep = '\t')
>dat4 <- read.table('4.txt',header = FALSE,sep = '/')
读取出来的数据都是一样的:
因为第二个文件是以逗号作为分隔符,所以也是可以用read.csv()读取的,read.csv()也是一个读取文件函数,后面会讲到。
把刚才读取的数据写入到一个新的文本文件里面,可以用write.table(),形式为:
write.table(dat,file = ,sep = ,row.names,col.names)
分别表示,
dat:被写的数据,
file:文件名(包含路径),
sep:分隔符,
row.names:是否有行名(比如第一行,第二行。。)就是行名,
col.names:是否有列名,同上,
当然了,一般行名与列名需要取有实际意义的名字,比如列名可以取(年龄、性别、成绩,这种表格相信大家应该都见过吧!)。
这里分别用" ","aaa","\t"作为分隔符,生成了3个文件。
>write.table(dat,file = '5.txt',sep = ' ')
>write.table(dat,file = '6.txt',sep = 'aaa')
>write.table(dat,file = '7.txt',sep = '\t')
这样就保存了三个文件。当然了,你可以保存成任意你喜欢、需要的分隔符号。
原文链接: 原文链接