TextGrocery，实用的短文本分类Python库

2023-02-25 09:18:02Python029

TextGrocery，实用的短文本分类Python库,第1张

在目前能看到的文本分类技术中，最好的毋庸置疑就是支持向量机------SVM。

但是在我初次接触分类技术时，不断的接触着算法原理，分词，向量化，tf-idf等技术基础，随后就是sklearn这样的超大功能技术包，sklearn有的时候就有一种大材小用的感觉了。

于是在一次机缘巧合中，我遇到了tgrocery，随后就有一种相见恨晚的感觉。那么这个怎么用，有什么用呢？

我们可以用pip简单的进行包的安装

让文本分类变得简单！

GitHub传送门 —> TextGrocery

这个神奇的包，让我们处理一些类似于标题的短文本的分类问题变得简单。

相对与sklearn的svm和nb，这个在进行分类的用时更加迅速。

1、 NLTK — Natural Language Toolkit

搞自然语言处理的同学应该没有人不知道NLTK吧，这儿也就不多说了。不过引荐两本书籍给刚刚触摸NLTK或许需求具体了解NLTK的同学: 一个是官方的《Natural Language Processing with Python》，以介绍NLTK里的功用用法为主，一起附带一些Python常识，一起国内陈涛同学友情翻译了一个中文版，这儿可以看到：引荐《用Python进行自然语言处理》中文翻译-NLTK配套书另外一本是《Python Text Processing with NLTK 2.0 Cookbook》，这本书要深入一些，会涉及到NLTK的代码结构，一起会介绍怎么定制自己的语料和模型等，相当不错。

2、 Pattern

Pattern由比利时安特卫普大学CLiPS实验室出品，客观的说，Pattern不仅仅是一套文本处理东西，它更是一套web数据挖掘东西，囊括了数据抓取模块(包含Google, Twitter, 维基百科的API，以及爬虫和HTML剖析器)，文本处理模块(词性标示，情感剖析等)，机器学习模块(VSM, 聚类，SVM)以及可视化模块等，可以说，Pattern的这一整套逻辑也是这篇文章的组织逻辑，不过这儿我们暂时把Pattern放到文本处理部分。我个人首要使用的是它的英文处理模块Pattern.en, 有许多很不错的文本处理功用，包含基础的tokenize, 词性标示，语句切分，语法检查，拼写纠错，情感剖析，句法剖析等，相当不错。

3、 TextBlob: Simplified Text Processing

TextBlob是一个很有意思的Python文本处理东西包，它其实是根据上面两个Python东西包NLKT和Pattern做了封装(TextBlob stands on the giant shoulders of NLTK and pattern, and plays nicely with both)，一起供给了许多文本处理功用的接口，包含词性标示，名词短语提取，情感剖析，文本分类，拼写检查等，甚至包含翻译和语言检测，不过这个是根据Google的API的，有调用次数约束。

4、 MBSP for Python

MBSP与Pattern同源，同出自比利时安特卫普大学CLiPS实验室，供给了Word Tokenization, 语句切分，词性标示，Chunking, Lemmatization，句法剖析等根本的文本处理功用，感兴趣的同学可以重视。

关于 Python文本处理工具都有哪些，环球青藤小编就和大家分享到这里了，学习是永无止境的，学习一项技能更是受益终身，所以，只要肯努力学，什么时候开始都不晚。如果您还想继续了解关于python编程的学习方法及素材等内容，可以点击本站其他文章学习。

list2.insert((int)(i[0]) - 1,(int)(i[2]))

改为

list2.insert(round(float(i[0])) - 1,round(float(i[2])))

试试

文本词性功用模块比利时

# 上一篇：R语言进行文本挖掘

# 下一篇：java开发工程师是做什么的