TextGrocery，实用的短文本分类Python库

2023-02-25 09:29:02Python017

TextGrocery，实用的短文本分类Python库,第1张

在目前能看到的文本分类技术中，最好的毋庸置疑就是支持向量机------SVM。

但是在我初次接触分类技术时，不断的接触着算法原理，分词，向量化，tf-idf等技术基础，随后就是sklearn这样的超大功能技术包，sklearn有的时候就有一种大材小用的感觉了。

于是在一次机缘巧合中，我遇到了tgrocery，随后就有一种相见恨晚的感觉。那么这个怎么用，有什么用呢？

我们可以用pip简单的进行包的安装

让文本分类变得简单！

GitHub传送门 —> TextGrocery

这个神奇的包，让我们处理一些类似于标题的短文本的分类问题变得简单。

相对与sklearn的svm和nb，这个在进行分类的用时更加迅速。

list2.insert((int)(i[0]) - 1,(int)(i[2]))

改为

list2.insert(round(float(i[0])) - 1,round(float(i[2])))

试试

导入文件很简单，如果路径是中文，需要注意，在Windows上需要用Unicode(path,'utf8')转换路径名称

文件中出现大量连续空格、换行符，所以使用正则匹配方法将之替换成一个空格

数字（这里暂且认为数字没有用处），中文英文标点符号，都没有用，过滤掉

也可以将他们写入停用词，然后全部一并过滤掉

用jieba分词，遇到空格也会作为一个单词，分完词后，将空格全部过滤掉

空格文本分词就有技术

# 上一篇：golang 中结构体与字节数组能相互转化么

# 下一篇：R语言中怎么把第一列的数据作为行名

给您推荐相同类型的内容：

javagui中单选框如何获取选中的值
[Java教程]表单中单选、多选、选择框值的获取及表单的序列化0 2015-12-17 13:00:11总结了下在表单处理中单选、多选、选择框值的获取及表单的序列化，写成了一个对象。如下：1 var formUtil = { 2获取
因为语言不通，你闹过哪些笑话？
其实，没有几次，像那些方言什么的，我听不懂一般就选择了放弃交流，所以基本上没有弄过什么笑话。不过说起英语弄出来的笑话，倒是有那么几个。有一年，我和同学去某个自然景点游玩。那次好像是我们第一次出去玩，所以兴奋地要死，一路上蹦蹦跳跳的，好不快活
美颜能把一般般长相的人整的好看吗？
能，美颜能把一般般长相的人整的好看的。拜各类技术和软件的发展所赐，当我们出现在镜头面前时，计算机算法就已经自动将采集到的人像进行了美颜处理。因此，镜头里的人总是那么“不真实”。那么，这些软件背后需要用到什么程序算法？计算机是如何识别人的面部
python 怎么调用so文件
当需要采用调用c++的程序的时候，需要对原有的数据加一个extern "C"封装一下即可。采用g++编译的代码也需要的，原因可能是因为c++编译器编译后的二进制so文件中，对c++的函数进行了重新的命名导致的。exter
c语言if的用法
if语句是c语言中的条件分支语句。它能将程序的执行路径分为两条。下面我们来看看c语言if的用法： if (condition) statement1； elsestatement2其中，if和else的对象都是单个语句（st
java有什么好的gui框架知乎
　1：java GUI框架类型一种是比较老的AWT框架，一种是新的Swing框架。awt(Abstract window toolkit)的消息机制是基于分层处理的，事件沿着层次结构沿着容器的上方传递。自从java1.1开始，java开始采
Go语言的优势有哪些
1. 部署简单Go 编译生成的是一个静态可执行文件，除了glibc外没有其他外部依赖。这让部署变得异常方便：目标机器上只需要一个基础的系统和必要的管理、监控工具，完全不需要操心应用所需的各种包、库的依赖关系，大大减轻了维护的负担。2. 并发
Golang kafka简述和操作（sarama同步异步和消费组）
一、Kafka简述 1. 为什么需要用到消息队列异步：对比以前的串行同步方式来说，可以在同一时间做更多的事情，提高效率；解耦：在耦合太高的场景，多个任务要对同一个数据进行操作消费的时候，会导致一个任务的处理因为另一个任务对数
Go语言基础语法（一）
本文介绍一些Go语言的基础语法。先来看一个简单的go语言代码： go语言的注释方法：代码执行结果：下面来进一步介绍go的基础语法。 go语言中格式化输出可以使用 fmt 和 log 这两个标
python3的int类型是几位的？
python3中的int类型是动态长度的，是长整型，理论支持无限大的数字。用sys.getsizeof()方法可以看int占了几位。例如：sys.getsizeof(0)=24sys.getsizeof(1)=28所以，0占了24个字
python难还是ruby难
一、异同对比选择1、Python和ruby的相同点：·都强调语法简单，都具有更一般的表达方式。python是缩进，ruby是类basic的表达。都大量减少了符号。·都是动态数据类型。都是有丰富的数据结构。·都具有C语言扩展能力，都具
RUBY语言怎么判断指定目录是否存在
ruby中判断目录是否存在：File.directory?(argu)ruby文件操作：使用File类的静态方法，或者File类的实例对象 File类的静态方法File::atime(filename)返回指定文件的最后访问时间1.创建文件
R语言中怎么把第一列的数据作为行名
read.xlsx(filename,sheet=1,head=T)如果你的第一行是数据，head=T会让第一列数据就会被强制为变量名，head=F则相反，这个需要xlsx包。如果已经载入数据，数据名为a，那么使用colnames（a）
java软件下载后怎么安装？
下载后直接安装就好！一直下一步啦！x0dx0a然后配置环境变量：x0dx0ax0dx0a在windows桌面上右击“我的电脑” —&gt“属性” —&gt“高级” —&gt“环境变量”，在“系统变量”里我
Python中read，readline和readlines三者间的区别和用法
这篇文章主要给大家介绍了关于Python中读取文件的read()、readline()和readlines()方法三者间的区别和用法,需要的朋友可以参考下前言众所周知在python中读取文件常用的三种方法：read(),readline()
【R语言】--- ggplot2绘制折线图
折线图一般用于描述一维变量随着某一连续变量(通常为时间)变化的情况。即折线图最适合描述时间序列数据的变化情况。也可随着有序离散变量变化。本文介绍ggplot2包的geom_line()函数绘制折线图。绘制方法是首先调用ggplot()函数选
C语言里面的地址是什么意思，指针指向一个变量的地址
C语言里面的地址实际上就是一个内存单元的编号，计算机一般是以一个字节为最小的存储单元的，每个字节就给它编一个编号，这个编号就是这个字节的地址，这个编号也就是地址是具有唯一性的。指针指向一个变量的地址，这个类似于，通过知道房间号就可以确定这个
关于Ruby
Ruby on Rails是一个用于编写网络应用程序的框架，它基于计算机软件语言Ruby，给程序开发人员提供强大的框架支持。Ruby on Rails包括两部分内容：Ruby语言和Rails框架。什么是Ruby?Ruby 语言是一种动态语言
R语言相关性分析
1. R语言自带函数cor(data, method=" ")可以快速计算出相关系数，数据类型：data.frame 如data.frame为：zz, 绘图如下：a. single protein：线性
51单片机编程，用C语言。
给你一个矩阵键盘的参考程序行列扫描：通过高四位全部输出低电平，低四位输出高电平。当接收到的数据，低四位不全为高电平时，说明有按键按下，然后通过接收的数据值，判断是哪一列有按键按下，然后再反过来，高四位输出高电平，低四位输出低电平，然后根据接
51单片机只能用c语言编程吗
编程的目的是让51单片机运行，在记忆中我只记得51单片机可以运行C语言和汇编，其实C语言编译后也就是汇编，在单片机上运行的只是一个个指令，简单的用51，复杂的用arm处理器。百度试试当然可以了，我一直都用C语言开发51单片机，很遗憾的是我目
opencv的模板匹配如何计算置信度？
Opencv模板匹配函数里面包含了匹配的置信度：img_rgb = cv2.imread('mario.jpg')。img_gray = cv2.cvtColor(img_rgb,cv2.COLOR_BGR2GRAY
ruby中如何顺序执行多线程
你根本没有进入ruby控制台，ruby要先运行ruby指令才进入ruby环境。$，这是书本上表示的命令提示符。你要看一下书本上的前言或者第一章，一般书本在最开始会说明一下符号，字体格式代表的含义，你没有从头看起，漏掉了重要的提示信息。书本开
python程序问题求解【例7.6】编写代码,判断一个字符属于阿拉伯数字,大写字母,小写字母或其他字符？
tc = 'n'while tc:a =input("请输入字符(退出请输入q)：")if a =='q':breakif a.isdigit() :print(&qu
怎么升级ruby版本到2.2.0 ios
Apple Watch最新的系统是Watch OS 2，升级到Watch OS 2正式版的步骤如下：1、先将iPhone的系统升级到iOS 9，iPhone要连接WiFi，要开蓝牙。2、与Apple Watch处于连接状态，Apple Wa
Java能转Android开发吗？如何转？
很多同学在昆明北大青鸟java学院学完java开发后因工作需要要求做android开发，于是问我们的咨询老师说：Java能转Android开发吗?怎么转?需要注意什么了?昆明北大青鸟java培训老师为你解答。1、Java和Android程
python列表和元组的区别
首先我们需要了解的是，元组和列表属于序列，都是按照特定顺序储存的一组元素，可以将证书、实数、字符串、列表、元组、字典、集合等任何类型的内容，创建和删除的方法也是一样的。二者的区别主要有以下几点：1、列表是动态的，属于可变序列，元素可以增
企业网站建设的基本流程是什么？
1.选择网站域名和服务器：制作企业网站最基本的必备条件就是域名和空间（服务器或者虚拟主机），因此我们在制作企业网站之前就要准备好这两样东西。常见域名注册服务商：西部数码阿里云；几大主流服务器提供商：阿里云、西部数码、华为云、腾讯云等。如
Ruby Gems不能连接到国内镜像，怎么回事？？？
由于国内网络原因（你懂的），导致 rubygems.org 存放在 Amazon S3 上面的资源文件间歇性连接失败。所以你会与遇到 gem install rack 或 bundle install的时候半天没有响应，具体可以用 gem
有没有这种小哥手办卖的啊？超帅！超想要的！！
那是有爱的的的同人女自己购买的SD娃娃原型【再配以和自己眼缘的黑色眼球及睫毛，小哥的发型，衣装，麒麟纹身贴纸关节和手脚黑金古刀等PS：SD娃娃专用假发（黑）手巧的自己剪到合适为止，或网店定制】的有爱作品。你如果手巧又肯花个3-4千的话，可以

推荐阅读

热门文章

最新发布

标签列表

TextGrocery，实用的短文本分类Python库

给您推荐相同类型的内容：