TextGrocery,实用的短文本分类Python库

Python017

TextGrocery,实用的短文本分类Python库,第1张

在目前能看到的文本分类技术中,最好的毋庸置疑就是支持向量机------SVM。

但是在我初次接触分类技术时,不断的接触着算法原理,分词,向量化,tf-idf等技术基础,随后就是sklearn这样的超大功能技术包,sklearn有的时候就有一种大材小用的感觉了。

于是在一次机缘巧合中,我遇到了tgrocery,随后就有一种相见恨晚的感觉。那么这个怎么用,有什么用呢?

我们可以用pip简单的进行包的安装

让文本分类变得简单!

GitHub传送门 —> TextGrocery

这个神奇的包,让我们处理一些类似于标题的短文本的分类问题变得简单。

相对与sklearn的svm和nb,这个在进行分类的用时更加迅速。

list2.insert((int)(i[0]) - 1,(int)(i[2]))

改为

list2.insert(round(float(i[0])) - 1,round(float(i[2])))

试试

导入文件很简单,如果路径是中文,需要注意,在Windows上需要用Unicode(path,'utf8')转换路径名称

文件中出现大量连续空格、换行符,所以使用正则匹配方法将之替换成一个空格

数字(这里暂且认为数字没有用处),中文英文标点符号,都没有用,过滤掉

也可以将他们写入停用词,然后全部一并过滤掉

用jieba分词,遇到空格也会作为一个单词,分完词后,将空格全部过滤掉