如何用r语言实现对已经分好的词作词频统计

Python022

如何用r语言实现对已经分好的词作词频统计,第1张

如果你已经做过分词了,那么一篇文章在R里面呈现的结构应该是一个vector,你只需要使用table这个函数就可以对所有词语出来的频数进行统计,然后根据你的关键词提取对应部分就可以了啊。

用结巴包做分词,Github的地址:https://github.com/qinwf/jieba

用freq()就可以统计出词频了,不过是结果是没有排序的。

1.先说中文词频统计,网上有不少半成品的软件或工具,如ROST系列ROSTCM6,ROST WordParser等,还有MyZiCiFreq及Excel版本的“词频分析工具@Excel大全”,除此之外其他免费的词频统计软件基本就是花瓶。

2.这些软件都可以在网上下载下来。

3.其中,Rostcm6功能强大,但可惜已经不再更新。excel版本的词频统计功能简洁明了,容易上手。

4.由于目前这些免费的中文词频统计软件大都只能统计TXT文本文档,所以如果手头是PDF之类文件的话,需要先PDF转TXT,这时候需要一些工具或技巧,可以到百度经验中搜索具体办法。