如何用python对文章中文分词并统计词频

2023-02-18 01:17:02Python010

如何用python对文章中文分词并统计词频,第1张

1、全局变量在函数中使用时需要加入global声明

2、获取网页内容存入文件时的编码为ascii进行正则匹配时需要decode为GB2312，当匹配到的中文写入文件时需要encode成GB2312写入文件。

3、中文字符匹配过滤正则表达式为ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分组

4、KEY，Value值可以使用dict存储，排序后可以使用list存储

5、字符串处理使用split分割，然后使用index截取字符串，判断哪些是名词和动词

6、命令行使用需要导入os,os.system(cmd)

首先要说明一个概念：gbk编码里一个中文字符的‘长度’是2。

str = '中国' #gbk编码

要取得'中'这个字符，需要用分片str[0:2],而不是索引str[0]。

以z4为例，下面这些代码的效果是这样的。

x = '同舟共济与时俱进艰苦奋斗'

i+= z4.findall(x) # 返回['同舟共济'，'与时俱进', '艰苦奋斗']

i+= z4.findall(x[2:]) # 返回['舟共济与', '时俱进艰']

i+= z4.findall(x[4:]) # 返回['共济与时', '俱进艰苦']

i+= z4.findall(x[6:]) # 返回['济与时俱', '进艰苦奋']

目的是取得所有连续4字中文字符串。

def statistics(astr):

# astr.replace("\n", "")

slist = list(astr.split("\t"))

alist = []

[alist.append(i) for i in slist if i not in alist]

alist[-1] = alist[-1].replace("\n", "")

return alist

if __name__ == "__main__":

code_doc = {}

with open("test_data.txt", "r", encoding='utf-8') as fs:

for ln in fs.readlines():

l = statistics(ln)

for t in l:

if t not in code_doc:

code_doc.setdefault(t, 1)

else:

code_doc[t] += 1

for keys in code_doc.keys():

print(keys + ' ' + str(code_doc[keys]))

中文字符字符串同舟共济时需

# 上一篇：python手机编辑器如何把这个.py文件保存在指定路径

# 下一篇：90-预测分析－R语言实现-时间序列1

给您推荐相同类型的内容：

prior什么意思中文
prior的意思：先验概率（天主教小隐修院的）修道长，院长（天主教大隐修院的）修道长，副住持最高行政长官。双语例句：1. Prior to the 19th century, there were almost no channels o
看电脑用的眼镜
长期看电脑戴什么眼镜建议可以戴专业防蓝光眼镜或防辐射眼镜，目前市场上防蓝光眼镜种类较多，一般镜片颜色偏淡黄色。过滤97%以上蓝光的眼镜朵适合于眼底病患者，还有重度电脑手机使用者。防辐射眼镜的原理电脑屏幕等的蓝光辐射，这种辐射通常只需要
CSS加载服务器上的字体太慢、能不能在字体加载未完成之前显示默认宋体
CSS加载服务器上的字体太慢是设置错误造成的，解决方法为：1、新建文件创建p标签，设置字体加粗。2、设置字体大小。3、设置使用什么字体。4、设置下划线如下图所示。5、附上代码&ltbody&gt&ltstyle&a
什么配置的电脑最好?
现在什么电脑配置最好电脑配置单CPU Intel Core2 Extreme X6800 ￥8999主板华硕 Striker Extreme ￥3388内存海盗船 TWIN2X1024-6400 ￥810硬盘 WD 鱼
java语言如何写增加功能
可以直接通过Calendar类的add方法进行实现，直接在DAY属性上加上指定的天数就可以了。举例：Calendar calendar = Calendar.newInstance()创建一个实例cd.set(2010,5,24,14,
一台电脑如何实现内网和外网的使用？
一台电脑如何同时上内网和外网外网如何控制内网电脑远程 | 20
电脑怎么投屏到电视上
电脑投屏到电视首先可以直接通过HDMI线将电脑和电视相连即可，其次如果电脑是win10系统，可以将电脑和电视连接到同一网络，点击想要投影的文件右键选择播放到设备即可实现投屏，最后通过第三方软件也可以实现投屏。电脑投屏电脑三种方法HDMI电缆
c语言字符串换行能用连字符吗
能。c语言字符串换行能用连字符，但是必须在最右边加上顿号且该行顿号后不能再有任何字符，连注释部分都不能有。C语言是一门面向过程、抽象化的通用程序设计语言，广泛应用于底层开发，C语言能以简易的方式编译、处理低级存储器。#include &am
java学习qq群
一。47744390很好的群，我就在里面。虽然也是杂人，但天天有人能够解决你的问题二。论坛的话非CSDN莫数了，中国最大的程序员论坛。地址是47744390三。我也是初学者，以后可以一起交流。我QQ是158971310四。大家一起进步，加油
HTML语言中<HTML>标记是通知浏览器该文件含有什么？
定义和用法此元素可告知浏览器其自身是一个 HTML 文档。&lthtml&gt与 &lthtml&gt标签限定了文档的开始点和结束点，在它们之间是文档的头部和主体。正如您所了解的那样，文档的头部由 &
什么电脑管家软件最好用？
电脑管家比较好的有：1、360安全卫士拥有查杀流行木马、修复系统漏洞、系统实时保护、清理恶评及系统插件、管理应用软件等多个强大的功能，360安全卫士是国内最受欢迎免费安全软件。360安全卫士还提供使用痕迹清理、弹出插件免疫以及系统还原等特
R语言可视化及作图6--ggplot2之点图、条形图、盒形图、直方图、线图
R语言绘图系列：标度控制着数据到图形属性的映射，标度将我们的数据转化为视觉上可以感知的东西，比如大小、位置、颜色、形状等。标度也为我们提供了读图时所使用的工具，比如说坐标轴和图例。总的来说，可以称为引导元素。标度函数控制元素的属性，可
图片懒加载和预加载
懒加载也叫延迟加载，指的是在长网页中延迟加载图像，是一种很好优化网页性能的方式。用户滚动到它们之前，可视区域外的图像不会加载。这与图像预加载相反，在长网页上使用延迟加载将使网页加载更快。在某些情况下，它还可以帮助减少服务器负载。常适用
python两个日期差了多少天
import datetime#首行输入，导入模块date1=datetime.date(year,month,day)#这里面year,month,day是代表年，月，日，年必须写成2021这种格式，都必须写成数字date2=dateti
R语言中更改图的大小比例
基础知识：像素数：图片上的最小成像单位的数目。评价一个设备的像素值，一般使用宽高像素的乘积表示，如1000px * 1500 px 尺寸：指图像打印后的物理尺寸，一般用厘米米或者（英）寸表示,1英寸（inche）=2.54厘米
电脑有什么好处？
但与此同时它带来很多的坏处。电脑的好处有很多，例如可以方便我们搜集资料。当我们想做一个专题习作，但又缺乏资料，只要我们上网浏览，就可以立刻找到很多与该专题习作有关的资料，非常方便。透过电脑可以提高学生的语文水平，现在互联上设有「每日一篇」
电脑做什么副业能赚点钱？
都2022年了，谁还没有个副业呢？经历了这两年的疫情，都知道了没钱是一件很难受的事情，现在的做法是：主业求稳定，副业求发展；好好发展一个副业才是硬道理。这两年里我也一直在探索副业的项目，实事上努力的人不少，很多项目如雨后春笋一般冒了出来。可
C语言发送post请求数据程序
C语言发post请求数据程序，工作需要，网上查资料N篇，作为半路出家学编程的，走过了N个坑，终于完成以下的测试程序。使用了curl的库, 这样无论在windows或者在linux都可以使用. win下的编程环境是TDM-GCC-
这个外国人是谁？？？？求大神介绍一下
Ruby Rose，1986年3月20日出生于澳大利亚墨尔本。模特，主持人。个人经历：鲁比·洛斯 (Ruby Rose) 全名Ruby Rose Langenheim，是澳大利亚MTV音乐电视台主持人、电台DJ、模特，更是少数公开出柜的明星
cpu在哪怎么看电脑cpu
1、cpu位于主板上，打开电脑机箱，在主板中央位置的就是CPU，打开CPU插槽的卡扣即可将CPU取出，再次装入时建议涂抹硅脂。2、怎么查看电脑cpu（1）首先右键单击计算机（或者是我的电脑）。（2）在打开的快捷菜单中单击管理。
怎么查询自己电脑的ip地址
查询自己电脑的IP地址的方法有很多。第一种方法：（1）找到电脑桌面上的网上邻居或者网络；（2）右击网络，选择属性；（3）打开网络共享中心，点击所连接的网络；（4）弹出网络连接状态栏，点击里面的详细信息；（5）在详细列表里我们就可以看到网
华为css和istack的区别
楼上的回答是什么鬼CSS集群的连接方式1、集群卡连接2、出厂定义的业务口连接：将LPU上的业务口配置为集群物理成员端口后加入逻辑集群端口，然后通过SFP+光模块和光纤或SFP+集群线缆将集群物理端口按照一定规则（交叉）连接起来，一个集群端口
C语言怎么求余数
1、首先，我们需要打开任意编程软件，小编使用的是Dev c++2、然后，我们需要新建一个源代码，如下图所示3、然后我们需要输入代码#include &ltstdio.h&gtint main(){int i=0scanf
电脑上下载微信怎么下载
在电脑端下载“微信”安装包，安装成功后，找到菜单中“微信”启动项，用鼠标右键点击后选“创建桌面快捷方式”，成功后就可以在桌面上找到“微信”启动图标了。1、首先打开电脑的浏览器，并搜索微信。2、然后选择后面有官方标签的网站，再点击免费下载。3
python爬图片报错 [Errno 13] Permission denied: 'D:pythontest2'
python爬图片报错 [Errno 13] Permission denied: 'D:\python\test2'，是代码输入错误造成的，解决方法如下：1、首先在网页上抓取图片时open函数有时会报错，如图。2
电脑怎么恢复出厂设置
计算机内置的 F10 系统恢复出厂设置功能，能短时间内帮您将计算机系统恢复到初始状态。一、F10 恢复出厂设置操作前须知：1.系统恢复出厂会删除 C 盘中数据（包含桌面文件、下载、文档等）和安装在 C 盘的软件，您可以勾选备份 C 盘个人文
如何查看自己电脑的操作系统
查看电脑操作系统的具体操作方法如下：方法一:1.在电脑桌面上找到“我的电脑”的图标，并右击选择属性，进入属性面板。2.这时候就可以看见自己电脑操作系统的位数啦！如图所示，电脑操作系统的位数为64位。方法二:1.在键盘上按 Win+
组装电脑哪个牌子好
问题一：组装电脑和品牌电脑哪个好目前所有的品牌机都是组装机,只不过品牌机是大批量采购组装后经过测试,印上自己的品牌. 1. 稳定性方面:品牌机的配件采用大批量采购的方式,有自己独立的组装车间和测试车间,有自己的品牌理念.自己组装机需
电脑主板哪个品牌好啊
好的电脑主板品牌有：映泰、华擎、MSI、技嘉、华硕主板。1、映泰：映泰是中国台湾的世界级的主板大厂，与上游芯片厂商关系密切，是NVIDIA的AIC。旗下主板产品拥有十二项武器等特色技术，比较适合家用和商用。高端T系列超频能力尤其出众，在
html是什么文件
HTML就是超文件标示语言（HyperText Markup Language）。主要是在浏览器中显示一份文件的内容。它本身并非程式设计，只不过是标示(Mark-up)，用来强调及组织一般性的文字。HTML是由一些标记（tags）所构成，每

推荐阅读

热门文章

最新发布

标签列表

如何用python对文章中文分词并统计词频

给您推荐相同类型的内容：