最新发布

# 2023-02-09
华为手机开机显示Harmony OS是什么情况?
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
LIO一AN00是怎样截滚动长屏？
一、使用隔空手势截取屏幕1.进入设置 &gt辅助功能 &gt智慧感知 &gt隔空截屏，确保隔空截屏开关已开启。2.将手掌朝向屏幕，放在在距离屏幕半臂的位置稍作停顿，待屏幕上方出现后小手后，握拳截屏。二、指关节截取屏
# 2023-02-09
华为手机开机显示Harmony OS怎么解决
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
鸿蒙系统的官网是什么?
鸿蒙系统的官网是Harmonyos.com。华为鸿蒙系统是一款全新的面向全场景的分布式操作系统，创造一个超级虚拟终端互联的世界，将人、设备、场景有机地联系在一起，将消费者在全场景生活中接触的多种智能终端实现极速发现、极速连接、硬件互助、资
# 2023-02-09
华为三款新机上市：预装HarmonyOS系统，但不支持5G，3699元起
大家都知道现在的手机市场主要还以5G手机为主，但深受芯片限制的华为也不得不再把4G手机拿出来“炒冷饭”。今日零点，华为多款4G新机正式开售，分别是华为Mate40 Pro 4G、Mate40E 4G以及nova8 Pro 4G。在5G
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
极客简报｜华为跌倒苹果吃饱；HarmonyOS 用户破亿
本周苹果召开新品发布会，iPhone 13 系列、iPad 9、iPad mini 6 以及 Apple Watch Series 7 正式亮相，大多数产品已于本周开卖，最快 9 月 24 日即可到手。极客之选
# 2023-02-09
harmonyos忘记密码如何解锁？
如果您确认遗忘自己的手机密码需要解锁，我们可以帮助您将手机强制恢复出厂设置。但是手机中的数据也会被清除，且无法恢复，建议您再回忆一下是否通过云备份或其他方式备份过手机数据。也建议您再仔细回忆一下是否自己设置修改了密码，如果确定无法回忆起密
# 2023-02-09
harmonyos花式字体怎么调节
1、首先，打开harmonyos手机，然后点击打开设置，点击显示。2、其次，在显示页面中，点击字体大小和粗细。3、最后，在字体大小和粗细中点击字体样式，然后选择花式字体即可调节。华为鸿蒙系统已经上线，那么对于这个系统而言，华为在其他的配套方

python jieba分词如何去除停用词

2023-02-20 08:40:03Python020

python jieba分词如何去除停用词,第1张

-*- coding: utf-8 -*-

import jieba

import jieba.analyse

import sys

import codecs

reload(sys)

sys.setdefaultencoding('utf-8')

#使用其他编码读取停用词表

#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()

#stoplist = set(w.strip() for w in stoplist)

#停用词文件是utf8编码

stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#经过分词得到的应该是unicode编码，先将其转成utf8编码

把语料从数据库提取出来以后就要进行分词啦，我是在linux环境下做的，先把jieba安装好，然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹（我这边是jieba-0.38），把自己的自定义词典（选用，目的是为了分出原始词库中没有的词以及优先分出一些词），停用词词典（选用），需要分词的语料文件，调用jieba的python程序都放到这个文件夹里，就可以用啦。至于词典要什么样的格式，在网上一查就可以了。

之前有看到别的例子用自定义词典替换掉jieba本身词典，但是我试了一下好像效果不行，假设原始词典中有’云‘，’计算‘而没有’云计算‘，我想要分出’云计算‘这个词，加载自定义词典可以成功，但替换原始词典就不一定成功了。（当然我说的也不一定对）

还有停用词词典，我之前是把停用词在程序里存入一个列表，然后分每个词时都循环一遍列表，这样特别浪费时间。后来把停用词做成字典就很快了。

for eachline in fin可避免memory error。如果还是报memory error，那应该就是输入语料文件单行数据多长了。

#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #导入jieba模块import re

jieba.load_userdict("newdict.txt") #加载自定义词典 import jieba.posseg as pseg

def splitSentence(inputFile, outputFile): #把停用词做成字典

stopwords = {}

fstop = open('stop_words.txt', 'r') for eachWord in fstop:

stopwords[eachWord.strip().decode('utf-8', 'ignore')] = eachWord.strip().decode('utf-8', 'ignore')

fstop.close()

fin = open(inputFile, 'r') #以读的方式打开文件

fout = open(outputFile, 'w') #以写得方式打开文件

jieba.enable_parallel(4) #并行分词

for eachLine in fin:

line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出现的空格，并转为Unicode进行处理

line1 = re.sub("[0-9\s+\.\!\/_,$%^*()?；:-【】+\"\']+|[+——！，:。？、~@#￥%……&*（）]+".decode("utf8"), "".decode("utf8"),line)

wordList = list(jieba.cut(line1)) #用结巴分词，对每行内容进行分词

outStr = ''

for word in wordList: if word not in stopwords:

outStr += word

outStr += ' '

fout.write(outStr.strip().encode('utf-8') + '\n') #将分词好的结果写入到输出文件 fin.close()

fout.close()

splitSentence('ss.txt', 'tt.txt')

分词词典语料自定义文件

# 上一篇：JSP和JS的区别

# 下一篇：电脑在睡眠状态下能远程吗？能否在远程进行登入唤醒。。