下面将分别应用R和python对jieba分词器在中文分词、词性标注和关键词提取领域的应用进行比较。
R实现
通过函数worker()来初始化分词引擎,使用segment()进行分词。有四种分词模式:最大概率法(MP)、隐马尔科夫模型(HMM)、混合模型(Mix)及索引模型(query),默认为混合模型。具体可查看help(worker).
#install.packages('jiebaR')library(jiebaR)mixseg <- worker()segment( "这是一段测试文本" , mixseg ) #或者用以下操作mixseg['这是一段测试文本']mixseg <= "这是一段测试文本"
python实现
python中需安装jieba库,运用jieba.cut实现分词。cut_all参数为分词类型,默认为精确模式。
import jiebaseg_list = jieba.cut(u"这是一段测试文本",cut_all = False)print("Full mode: "+ ",".join(seg_list)) #默认精确模式
无论是R还是python都为utf—8编码。
R实现
可以使用<=.tagger 或者tag 来进行分词和词性标注,词性标注使用混合模型模型分词,标注采用和 ictclas 兼容的标记法。
words = "我爱北京天安门"tagger = worker("tag") #开启词性标注启发器tagger <= words # r v ns ns # "我" "爱" "北京" "天安门"
python实现
#词性标注import jieba.posseg as psegwords = pseg.cut("我爱北京天安门")for word,flag in words: print('%s, %s' %(word,flag))
R实现
R关键词提取使用逆向文件频率(IDF)文本语料库,通过worker参数“keywords”开启关键词提取启发器,topn参数为关键词的个数。
keys = worker("keywords",topn = 5, idf = IDFPATH)keys <= "会议邀请到美国密歇根大学(University of Michigan, Ann Arbor)环境健康科学系副教授奚传武博士作题为“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的学术讲座,介绍美国密歇根Flint市饮用水污染事故的发生发展和处置等方面内容。讲座后各相关单位同志与奚传武教授就生活饮用水在线监测系统、美国水污染事件的处置方式、生活饮用水老旧管网改造、如何有效减少消毒副产物以及美国涉水产品和二次供水单位的监管模式等问题进行了探讨和交流。本次交流会是我市生活饮用水卫生管理工作洽商机制运行以来的又一次新尝试,也为我市卫生计生综合监督部门探索生活饮用水卫生安全管理模式及突发水污染事件的应对措施开拓了眼界和思路。"#结果:# 48.8677 23.4784 22.1402 20.326 18.5354 # "饮用水" "Flint" "卫生" "水污染" "生活"
python实现
python实现关键词提取可运用TF-IDF方法和TextRank方法。allowPOS参数为限定范围词性类型。
#关键词提取import jieba.analysecontent = u'会议邀请到美国密歇根大学(University of Michigan, Ann Arbor)环境健康科学系副教授奚传武博士作题为“Multibarrier approach for safe drinking waterin the US : Why it failed in Flint”的学术讲座,介绍美国密歇根Flint市饮用水污染事故的发生发展和处置等方面内容。讲座后各相关单位同志与奚传武教授就生活饮用水在线监测系统、美国水污染事件的处置方式、生活饮用水老旧管网改造、如何有效减少消毒副产物以及美国涉水产品和二次供水单位的监管模式等问题进行了探讨和交流。本次交流会是我市生活饮用水卫生管理工作洽商机制运行以来的又一次新尝试,也为我市卫生计生综合监督部门探索生活饮用水卫生安全管理模式及突发水污染事件的应对措施开拓了眼界和思路。'#基于TF-IDFkeywords = jieba.analyse.extract_tags(content,topK = 5,withWeight = True,allowPOS = ('n','nr','ns'))for item in keywords: print item[0],item[1] #基于TF-IDF结果# 饮用水 0.448327672795# Flint 0.219353532163# 卫生 0.203120821773# 水污染 0.186477211628# 生活 0.170049997544
#基于TextRankkeywords = jieba.analyse.textrank(content,topK = 5,withWeight = True,allowPOS = ('n','nr','ns'))for item in keywords: print item[0],item[1] #基于TextRank结果:# 饮用水 1.0# 美国 0.570564785973# 奚传武 0.510738424509# 单位 0.472841889334# 讲座 0.443770732053
写在文后
自然语言处理(NLP)在数据分析领域有其特殊的应用,在R中除了jiebaR包,中文分词Rwordseg包也非常常用。一般的文本挖掘步骤包括:文本获取(主要用网络爬取)——文本处理(分词、词性标注、删除停用词等)——文本分析(主题模型、情感分析)——分析可视化(词云、知识图谱等)。本文是自然语言处理的第一篇,后续将分别总结下应用深度学习Word2vec进行词嵌入以及主题模型、情感分析的常用NLP方法。
参考资料
Introduction · jiebaR 中文分词 https://qinwenfeng.com/jiebaR/segment.html
知乎:【文本分析】利用jiebaR进行中文分词 https://zhuanlan.zhihu.com/p/24882048
雪晴数据网:全栈数据工程师养成攻略 http://www.xueqing.tv/course/73
搜狗实验室,词性标注应用 http://www.sogou.com/labs/webservice/
【R文本挖掘】中文分词Rwordseg http://blog.163.com/zzz216@yeah/blog/static/162554684201412895732586/
jiuba有6个语素。jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下:
Ag | 形语素 | 形容词性语素。形容词代码为 a,语素代码g前面置以A。
a | 形容词 | 取英语形容词 adjective的第1个字母。
ad | 副形词 | 直接作状语的形容词。形容词代码 a和副词代码d并在一起。
an | 名形词 | 具有名词功能的形容词。形容词代码 a和名词代码n并在一起。
b | 区别词 | 取汉字“别”的声母。
c | 连词 | 取英语连词 conjunction的第1个字母。
dg | 副语素 | 副词性语素。副词代码为 d,语素代码g前面置以D。
d | 副词 | 取 adverb的第2个字母,因其第1个字母已用于形容词。
e | 叹词 | 取英语叹词 exclamation的第1个字母。
f | 方位词 | 取汉字“方”
g | 语素 |绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
h | 前接成分 | 取英语 head的第1个字母。
i | 成语 | 取英语成语 idiom的第1个字母。
j | 简称略语 | 取汉字“简”的声母。
k | 后接成分
l | 习用语 | 习用语尚未成为成语,有点“临时性”,取“临”的声母。
m | 数词 | 取英语 numeral的第3个字母,n,u已有他用。
Ng | 名语素 | 名词性语素。名词代码为 n,语素代码g前面置以N。
n | 名词 | 取英语名词 noun的第1个字母。
nr | 人名 | 名词代码 n和“人(ren)”的声母并在一起。
ns | 地名 | 名词代码 n和处所词代码s并在一起。
nt | 机构团体 | “团”的声母为 t,名词代码n和t并在一起。
nz | 其他专名 | “专”的声母的第 1个字母为z,名词代码n和z并在一起。
o | 拟声词 | 取英语拟声词 onomatopoeia的第1个字母。
p | 介词 | 取英语介词 prepositional的第1个字母。
q | 量词 | 取英语 quantity的第1个字母。
r | 代词 | 取英语代词 pronoun的第2个字母,因p已用于介词。
s | 处所词 | 取英语 space的第1个字母。
tg | 时语素 | 时间词性语素。时间词代码为 t,在语素的代码g前面置以T。
t | 时间词 | 取英语 time的第1个字母。
u | 助词 | 取英语助词 auxiliary
vg | 动语素 | 动词性语素。动词代码为 v。在语素的代码g前面置以V。
v | 动词 | 取英语动词 verb的第一个字母。
vd | 副动词 | 直接作状语的动词。动词和副词的代码并在一起。
vn | 名动词 | 指具有名词功能的动词。动词和名词的代码并在一起。
w | 标点符号
x | 非语素字 | 非语素字只是一个符号,字母 x通常用于代表未知数、符号。
y | 语气词 | 取汉字“语”的声母。
z | 状态词 | 取汉字“状”的声母的前一个字母。
un | 未知词 | 不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)