中科院汉语分词系统:在python中的安装步骤

Python018

中科院汉语分词系统:在python中的安装步骤,第1张

1、打开anaconda的Anaconda Prompt界面。

2、使用pip安装中科院汉语分词系统的第三方库文件(pynlpir)

3、接着按一下键盘上的enter键,开始安装。

4、接着需要更新一下pynlpir,不然会出现许可证过期的情况。

5、然后按一下键盘上的enter键,开始更新。

6、最后我们就可以在python的编辑上使用中科院汉语分词系统了

python做中文分词处理主要有以下几种:结巴分词、NLTK、THULAC

1、fxsjy/jieba

结巴的标语是:做最好的 Python 中文分词组件,或许从现在来看它没做到最好,但是已经做到了使用的人最多。结巴分词网上的学习资料和使用案例比较多,上手相对比较轻松,速度也比较快。

结巴的优点:

支持三种分词模式

支持繁体分词

支持自定义词典

MIT 授权协议

2、THULAC:一个高效的中文词法分析工具包

前两天我在做有关于共享单车的用户反馈分类,使用jieba分词一直太过零散,分类分不好。后来江兄给我推荐了THULAC: 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包 。THULAC的接口文档很详细,简单易上手。

THULAC分词的优点:

能力强。利用规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。

准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%

速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度达到1.3MB/s,速度比jieba慢

Python 解决中文编码问题基本可以用以下逻辑:

utf8(输入) ——>unicode(处理) ——>(输出)utf8

Python 里面处理的字符都是都是unicode 编码,因此解决编码问题的方法是把输入的文本(无论是什么编码)解码为(decode)unicode编码,然后输出时再编码(encode)成所需编码。

由于处理的一般为txt 文档,所以最简单的方法,是把txt 文档另存为utf-8 编码,然后使用Python 处理的时候解码为unicode(sometexts.decode('utf8')),输出结果回txt 的时候再编码成utf8(直接用str() 函数就可以了)。

安装jieba

pip install jieba

然后

>>> import jieba

>>> seg_list = jieba.cut("我来到北京清华大学", cut_all=True)

>>> print("Full Mode: " + "/ ".join(seg_list))

Building prefix dict from the default dictionary ...

Dumping model to file cache C:\Users\justin\AppData\Local\Temp\jieba.cache

Loading model cost 0.902 seconds.

Prefix dict has been built succesfully.

Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

>>> seg_list = jieba.cut("我来到北京清华大学", cut_all = False)

>>> print("Precise Mode: " + "/".join(seg_list))

Precise Mode: 我/来到/北京/清华大学

还有更多的模式和细节,自己去百度吧