R语言--字符处理(stringr包)

Python014

R语言--字符处理(stringr包),第1张

stringr 包中的大部分函数具有统一风格的命名方式,以 str_ 开头,正则表达式也完全适用该包。

字符串拼接函数 str_c ,与R语言自带的 paste 和 paste0 函数具有相同的作用。

字符计数函数 str_count ,计算字符串中指定字符的个数。

字符检查函数 str_detect ,检查字符串中是否包含指定字符,返回逻辑向量。

字符复制函数 str_dup ,将字符向量重复若干次,返回重复后的字符向量。

字符提取函数 str_extract 和 str_extract_all ,对字符串进行提取, str_extract_all 函数返回所有的匹配结果。

字符串格式化函数 str_glue ,用花括号 {} 表示占位符,括号内的变量被替换成全局变量值。

字符串长度函数 str_length ,计算字符串长度。

字符位置提取函数 str_locate 和 str_locate_all ,返回匹配到的字符的位置。

字符匹配函数 str_match 和 str_match_all 与字符提取函数 str_extract 类似,返回匹配到的字符,不同之处在于返回格式。

字符补齐函数 str_pad ,用于在字符串中添加单个字符,可选择添加的位置,在参数 side 中进行设置。

字符删除函数 str_remove 和 str_remove_all ,用于删除字符串中的部分字符。

字符替换函数 str_replace 、 str_replace_all 和 str_replace_na ,用于替换字符串中的部分字符。

字符排序函数 str_sort 和 str_order ,对字符向量进行排序。

字符分割函数 str_split 和 str_split_fixed ,对字符串进行分割。

字符过滤函数 str_sub 和 str_subset , str_sub 函数通过指定开始和结束位置,过滤出字符串的部分字符串。 str_subset 函数通过匹配模式,过滤出满足模式的字符串。

stringr 包中其他的有用函数,用于常见的字符处理。

介绍使用tidytext进行文本挖掘。

整洁的数据应该是这样的

对于整洁的文本数据,储存在每行中的数据通常是单个单词,但也可以是n-gram,句子或段落。

使用unnest_tokens函数对数据进行处理

简单介绍一下unnest_tokens函数:

unnest_tokens这里使用的两个基本参数。首先,输出的列名,上面是word,然后是文本来输入列(text在本例中)。

使用之后unnest_tokens,我们将每行拆分

文本分析的流程:

就是写了傲慢与偏见的那个人,说实话这部作品的确值得一看

数据来自于Jane Austen的 janeaustenr 包

linenumber 对应的是多少行, chapter 对应的是第多少章。

要将其作为一个整洁的数据集来处理,还需要将句子转化成文更加基本的格式

此函数使用 tokenizers 包将原始数据框中的每一行文本分隔为标记。默认标记化用于单词,但其他选项包括字符,n-gram,句子,行,段落或正则表达式模式周围的分隔。

也就是修改下面这个参数:

既然数据是每行一个字的格式,我们可以使用像dplyr这样的整洁工具来操作它。通常在文本分析中,我们会想要删除停用词停用词是对分析无用的词,通常是非常常见的词,例如英语中的“the”,“of”,“to”等等。我们可以用一个删除停用词(保存在tidytext数据集中stop_words)anti_join()。

我们也可以使用 dplyr count() 来查找所有书籍中最常见的单词。

可以看见,最常见的单词是 miss

进行可视化:

因为我们一直在使用整洁的工具,所以我们的字数存储在一个整洁的数据框中。这允许我们将它直接传递给ggplot2包,例如创建最常见单词的可视化

grep,grepl,sub,gsub这一类的函数应该有用。可以看一下R的regular expression,可以用在之前那些函数里。

对你的问题来说,可以先用index<-grepl(...)找到这种样子的字符串的位置,然后用vector<-vector[!index]之类的方法把它们去掉。