python jieba分词如何去除停用词

2023-02-26 11:14:01Python013

python jieba分词如何去除停用词,第1张

-*- coding: utf-8 -*-

import jieba

import jieba.analyse

import sys

import codecs

reload(sys)

sys.setdefaultencoding('utf-8')

#使用其他编码读取停用词表

#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()

#stoplist = set(w.strip() for w in stoplist)

#停用词文件是utf8编码

stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#经过分词得到的应该是unicode编码，先将其转成utf8编码

在用 for 循环去停用词的部分，出错，仅去掉了 stopwords 中的部分停用词，且相同停用词只去除了一次。求大神告知错误之处，贴上代码再好不过！！

#encoding=utf-8

import sys

import re

import codecs

import os

import shutil

import jieba

import jieba.analyse

#导入自定义词典

#jieba.load_userdict("dict_baidu.txt")

#Read file and cut

def read_file_cut():

#create path

stopwords = {}.fromkeys([ line.strip() for line in open('stopword.txt') ])

path = "Lon\\"

respath = "Lon_Result\\"

if os.path.isdir(respath): #如果respath这个路径存在

shutil.rmtree(respath, True) #则递归移除这个路径

os.makedirs(respath) #重新建立一个respath目录

num = 1

while num<=20:

name = "%d" % num

fileName = path + str(name) + ".txt"

resName = respath + str(name) + ".txt"

source = open(fileName, 'r')

if os.path.exists(resName):

os.remove(resName)

result = codecs.open(resName, 'w', 'utf-8')

line = source.readline()

line = line.rstrip('\n')

while line!="":

line = unicode(line, "utf-8")

output=''

seglist = jieba.cut(line,cut_all=False)

for seg in seglist:

seg=seg.encode('utf-8')

if seg not in stopwords:

output+=seg

output = ' '.join(list(seglist))#空格拼接

print output

result.write(output + '\r\n')

line = source.readline()

else:

print 'End file: ' + str(num)

source.close()

result.close()

num = num + 1

else:

print 'End All'

#Run function

if __name__ == '__main__':

read_file_cut()

我觉得是这样啦:

...

seglist = jieba.cut(line,cut_all=False)

seglist = (seg.encode('utf-8') for seg in seglist)

seglist = [seg for seg in seglist if seg not in stopwords]

output = ' '.join(seglist)

print output

...

不太懂你这两行的意思:

output+=seg

output = ' '.join(list(seglist))#空格拼接

每次 output 都会被设定成 ' '.join(list(seglist)) 那 output+=seg 好像就没有意义了。

python中最好不要在list遍历中使用list.remove方法:

remove 仅仅删除一个值的首次出现。

如果在 list 中没有找到值，程序会抛出一个异常

最后，你遍历自己时候对自己的内容进行删除操作，效率显然不高，还容易出现各种难debug的问题

建议使用新的list存储要保留的内容，然后返回这个新list。比如

a_list = [1,2,3,4,5]

needs_to_be_removed = [3,4,5]

result = []

for v in a_list:

if v not in needs_to_be_removed:

result.append(v)

print result

分词遍历递归空格路径

# 上一篇：c语言中用蒙特卡洛法求积分输出info00

# 下一篇：如何让rstudio可以用latex语言

给您推荐相同类型的内容：

如何利用c语言打开文本文件？
C程序语言非常强大，通过打开文本的函数（里面的参数指出要打开文本的位置及文件名），即可打开相应的文本。第一，包含的头文件：#include &ltstdio.h&gt，这是一个输入输出函数，第二，打开文本文件：FILE *
Go语言文件操作
本文主要介绍了Go语言中文件读写的相关操作。文件是什么？计算机中的文件是存储在外部介质（通常是磁盘）上的数据集合，文件分为文本文件和二进制文件。os.Open() 函数能够打开一个文件，返回一个 *File 和一个 er
国内最好的Java培训机构有哪些？
国内现在的java培训机构有千锋教育、IT培训网、中软国际教育集团、课工场、开课吧等等，这些都是知名的品牌。千锋教育就有线上免费Java线上公开课。随着IT行业特别是Java行业的迅速发展，企业对于技术人才Java程序员的需求量与日俱增。但
郑州哪家java培训机构好哪个好
郑州java培训推荐选择【达内教育】，该机构部署企业级实战开发环境，从传统数据库服务器，到配置管理服务器，再到项目管理工具库。为了让学员真正的掌握企业开发环境，在整个课程中贯穿使用企业开发环境，让学员在整个学习过程中掌握企业开发环境的每个细
win7适合用哪些c语言编译器?
用 Visual Studio 2010 旗舰版，它是专为Win7打造的，其他的版本也可以兼容，而且支持VCVBC#多种语言开发，安装下来才2G多，是一款相当不错的开发软件。用开发版的比较好，学习版的有些功能减掉了。eclipseC
一个关于128点的快速傅立叶的C语言程序
这是我写的1024点的快速傅里叶变换程序，下面有验证，你把数组doubleA[2049]={0}doubleB[1100]={0}doublepowerA[1025]={0}改成A[256]={0}B[130]={0}power[129]=
近几年有哪些编程语言？
现在最流行的计算机语言有：1、JavaJava是广受欢迎的编程语言，90％的财富500强公司都大量使用这一语言。Java那句广为人知的口号“一次编写，处处运行”也体现出Java价值的关键所在—强大的Java虚拟机使得Java具有跨平台兼容性
python把列表前几个元素提取到新列表
1、首先说先如何创建一个新列表，直接使用list=[2,3,4]，即创建了一个名为list的列表。2、如何查看list中的值的数量，这里使用len方法查看，len(list)则为list的值的数量。3、使用append方法可以向list中添
java培训学校哪家好哪个好
千锋教育。【点击测试我适不适合学设计】千锋的教育培训业务致力于培养高质量数字化技术技能人才，主要提供大学生技能培训、职后技能培训等，课程涵盖前端、Java、Python、大数据、软件测试、物联网、云计算、网络安全、Unity、区块链、
在python中一共有多少个标准库？
Python 语言官方的参考手册钟，介绍了与 Python 一同发行的标准库。文本处理服务string --- 常见的字符串操作re --- 正则表达式操作difflib --- 计算差异的辅助工具textwrap --- 文本自动
Go语言可能会代替C语言吗
不可能。Go到目前为止，其本身就是用C写的。只是在语言层面实现了一些如果用C会很难写的feature，比如goroutine。在1.5版本中，Go会bootstraping，用Go来编译自己。C语言，几乎每种操作系统的系统调用都是C，C最大
C语言中将字符串打印成指定长度的方法
好用的扩展就是scanf()的“%ms”占位符。介于%和s之间的m有measure（测量）的含义，它可以测量输入字符串的长度，scanf()根据字符串的长度分配内存，并将字符串拷贝到这段内存，之后将首地址返回给m。在使用完毕后，需要调用f
怎么用C语言程序设计一个简单计算器？
#include&lt&lta href="https:www.baidu.coms?wd=stdio.h&amptn=44039180_cpr&ampfenlei=mv6quAkxTZn0I
r语言P=p%*%p是什么意思
％＊％表示通常意义下的两个矩阵的乘积。而矩阵乘积只有在第一个矩阵的列数（column）和第二个矩阵的行数（row）相同时才有意义。x＋y加法x－y减法x＊y乘法x／y除法x＾y乘幂x％％y模运算x％／％y整数除法x＝＝y判断是否相等x &a
r语言是低级语言么
首先R是一种专业性很强的统计语言，如果想学得快一些的话，基本的统计学知识要懂，不然很多东西会掌握的比较慢。掌握基本语法和操作，推荐国内的已经翻译的比如《R语言实战》《R语言编程艺术》，这个过程中最好结合一些小例子来做一些分析的东西。其他还有
R语言之基础
向量是 R 语言中最基本的数据类型，在 R 中没有单独的标量（例如 1 本质上是 c(1)）。 R 中可以用 = 或者 &lt- 来进行赋值， &lt-的快捷键是 alt + - 。 R的下标是从1开始的，和py
java培训课程表
java培训课程表分为理论和实训俩个大类。如需学习java推荐选择【达内教育】，该机构秉承“名师出高徒、高徒拿高薪”的教学理念。作为上市职业教育公司，诚信经营，拒绝虚假宣传是该机构集团的经营理念。java培训课程表具体如下：1、【java基
C语言中字符串和整数小数相互转换的函数都有什么？
字符串转换函数如下：字符串转换为整数 atoi2.字符串转换为长整数 atol3.字符串转换为浮点数 strtod4.字符串转换为长整数 strtol5.字符串转换为无符号长整型 strtoulC语言是一门通用计算机编程语言，应用
现在Play车队还剩谁?(光哥还在吗?)拜托各位大神
「≡Play俱乐部全体成员名单≡ 管理组车队经理 Play小兵灬车队赞助 Play心魔灬车队队长 Play李光灬工作组「组长：Play丶元素」网站部 Play丶Seven 外交部 Play夜雪灬外宣部 Play京勋灬 P
现在的java培训大概的费用一般都是多少钱？
现在大部分java培训的线下班费用是在20000~30000之间不等。具体多少钱还是要根据所处城市，所学机构实际咨询了解的价格为准。因为不同城市、不同机构之间师资、课程和学习环境各方面都有所不同，所以培训费用也会存在一定的差别。千锋教育有线
Go语言文件操作
本文主要介绍了Go语言中文件读写的相关操作。文件是什么？计算机中的文件是存储在外部介质（通常是磁盘）上的数据集合，文件分为文本文件和二进制文件。os.Open() 函数能够打开一个文件，返回一个 *File 和一个 er
Go语言编程入门时需要注意什么
刚入门Go语言小白需要注意以下五点：1、注意书写代码的一些规范吧，特别是注意大小写、英文标点符号区别等，在特别的位置写上注释。2、主要是理解伪代码所描述的算法，伪代码要注意是不能直接运行的。3、注意编译器版本与书籍上所介绍版本是否一致，也注
北京的Python培训机构跟上海比怎么样？
各个城市的Python培训都有很多，质量有各有好坏。北京和上海的发展都是走在前列的，从事这方面Python学习的地方有不少，也有在各个城市开了分校区的。没有哪个机构是最完美的，只有哪个是最适合你的。Python是17年在北京火的，北京的千
想学Java，该选择哪家培训机构好点？
国内现在的java培训机构有千锋教育、IT培训网、中软国际教育集团、课工场、开课吧等等，这些都是知名的品牌。千锋教育就有线上免费Java线上公开课。随着IT行业特别是Java行业的迅速发展，企业对于技术人才Java程序员的需求量与日俱增。
北大青鸟java培训：短信通信服务的构建？
随着互联网的不断发展，用户之间进行信息传递的方法和渠道也是越来越多了，而今天我们就一起来了解一下，宁夏北大青鸟http:www.kmbdqn.cn介绍关于短信通信服务的构建都有哪些主要组成部分。非功能需求,主要是以下几点：一、稳定的发
想学Java，该选择哪家培训机构好点？
国内现在的java培训机构有千锋教育、IT培训网、中软国际教育集团、课工场、开课吧等等，这些都是知名的品牌。千锋教育就有线上免费Java线上公开课。随着IT行业特别是Java行业的迅速发展，企业对于技术人才Java程序员的需求量与日俱增。
R语言:如何r语言编写程序求e的近似值，精确到10-5
最简单但计算量最大的是泰勒公式：e=1+11!+12!+13!+14!+...下面是求e的R语言函数：e_fun &lt- function(n) { etemp &lt- 1 ni &lt- 1L
C语言中的return 0是啥意思
c语言return0的意思是指返回到主函数的值为0。c语言是一门面向过程、抽象化的通用程序设计语言，广泛应用于底层开发。C语言是一门面向过程的、抽象化的通用程序设计语言，广泛应用于底层开发。C语言能以简易的方式编译、处理低级存储器。C的
如何让rstudio可以用latex语言
前的问题是 R Markdown里如何使用Latex模板，现在发现不需要使用R Markdown了，因为需要创建的文件是rnw而不是rmd。首先需要R, RStudio, Latex相应组件，RStudio里的kintr包。File-&am
C语言课程设计，贪吃蛇应该怎么做？
2.1程序功能介绍贪吃蛇游戏是一个经典小游戏，一条蛇在封闭围墙里，围墙里随机出现一个食物，通过按键盘四个光标键控制蛇向上下左右四个方向移动，蛇头撞倒食物，则食物被吃掉，蛇身体长一节，同时记10分，接着又出现食物，等待蛇来吃，如果蛇在移动中

推荐阅读

热门文章

最新发布

标签列表

python jieba分词如何去除停用词

给您推荐相同类型的内容：