R语言进行文本挖掘

Python029

R语言进行文本挖掘,第1张

介绍使用tidytext进行文本挖掘。

整洁数据应该是这样的

对于整洁的文本数据,储存在每行中的数据通常是单个单词,但也可以是n-gram,句子或段落。

使用unnest_tokens函数对数据进行处理

简单介绍一下unnest_tokens函数:

unnest_tokens这里使用的两个基本参数。首先,输出的列名,上面是word,然后是文本来输入列(text在本例中)。

使用之后unnest_tokens,我们将每行拆分

文本分析的流程:

就是写了傲慢与偏见的那个人,说实话这部作品的确值得一看

数据来自于Jane Austen的 janeaustenr 包

linenumber 对应的是多少行, chapter 对应的是第多少章。

要将其作为一个整洁的数据集来处理,还需要将句子转化成文更加基本的格式

此函数使用 tokenizers 包将原始数据框中的每一行文本分隔为标记。默认标记化用于单词,但其他选项包括字符,n-gram,句子,行,段落或正则表达式模式周围的分隔。

也就是修改下面这个参数:

既然数据是每行一个字的格式,我们可以使用像dplyr这样的整洁工具来操作它。通常在文本分析中,我们会想要删除停用词停用词是对分析无用的词,通常是非常常见的词,例如英语中的“the”,“of”,“to”等等。我们可以用一个删除停用词(保存在tidytext数据集中stop_words)anti_join()。

我们也可以使用 dplyr count() 来查找所有书籍中最常见的单词。

可以看见,最常见的单词是 miss

进行可视化:

因为我们一直在使用整洁的工具,所以我们的字数存储在一个整洁的数据框中。这允许我们将它直接传递给ggplot2包,例如创建最常见单词的可视化

单就数据分析对比,我认为R的优势有:

1、学习先易后难,不会把小白们吓掉;

2、数据科学的包特别多

3、可视化特别吊

R的缺点也不少:

1、R经常更新,更新后经常不支持之前你安装的包;我电脑里安装了10+个R的版本,不停的切换

2、R语言的包、函数名起的很随意,看名字不知道是干什么用的,记不起名字如何让小白使用啊。

3、R语言社区人少,遇到问题你只能自己解决

4、即使有RStudio,写代码还是不方便

下面再说下python,优点:

1、是一门看的懂的,说人话的语言。库名、函数名都很好理解记忆,而且你看别人写的代码基本知道这代码的意思,不信你试试。

2、数据获取占优势,数据分析第一步是数据获取,现在人文社科很多数据需要网上抓取,不过就抓数据而言,python更占优势。各种教程,代码,网上一大片。

3、社区人数特别多,基本你遇到的问题都能找到

python的缺点:

1、学习起来,开头很难,学习曲线与R正好相反。

2、公平起见,我还是写上,python的数据分析库不如R多

3、可视化不如R

综合下,建议大家学习python,语言通俗易懂,功能强大,越来越简单。