如何用r语言把一份文档进行分词及词频分析

Python024

如何用r语言把一份文档进行分词及词频分析,第1张

用结巴包做分词,Github的地址:https://github.com/qinwf/jieba

用freq()就可以统计出词频了,不过是结果是没有排序的。

如果你已经做过分词了,那么一篇文章在R里面呈现的结构应该是一个vector,你只需要使用table这个函数就可以对所有词语出来的频数进行统计,然后根据你的关键词提取对应部分就可以了啊。