在目前能看到的文本分类技术中,最好的毋庸置疑就是支持向量机------SVM。
但是在我初次接触分类技术时,不断的接触着算法原理,分词,向量化,tf-idf等技术基础,随后就是sklearn这样的超大功能技术包,sklearn有的时候就有一种大材小用的感觉了。
于是在一次机缘巧合中,我遇到了tgrocery,随后就有一种相见恨晚的感觉。那么这个怎么用,有什么用呢?
我们可以用pip简单的进行包的安装
让文本分类变得简单!
GitHub传送门 —> TextGrocery
这个神奇的包,让我们处理一些类似于标题的短文本的分类问题变得简单。
相对与sklearn的svm和nb,这个在进行分类的用时更加迅速。
list2.insert((int)(i[0]) - 1,(int)(i[2]))改为
list2.insert(round(float(i[0])) - 1,round(float(i[2])))
试试
导入文件很简单,如果路径是中文,需要注意,在Windows上需要用Unicode(path,'utf8')转换路径名称文件中出现大量连续空格、换行符,所以使用正则匹配方法将之替换成一个空格
数字(这里暂且认为数字没有用处),中文英文标点符号,都没有用,过滤掉
也可以将他们写入停用词,然后全部一并过滤掉
用jieba分词,遇到空格也会作为一个单词,分完词后,将空格全部过滤掉