如何用python对文章中文分词并统计词频

2023-02-25 00:52:02Python017

如何用python对文章中文分词并统计词频,第1张

1、全局变量在函数中使用时需要加入global声明

2、获取网页内容存入文件时的编码为ascii进行正则匹配时需要decode为GB2312，当匹配到的中文写入文件时需要encode成GB2312写入文件。

3、中文字符匹配过滤正则表达式为ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分组

4、KEY，Value值可以使用dict存储，排序后可以使用list存储

5、字符串处理使用split分割，然后使用index截取字符串，判断哪些是名词和动词

6、命令行使用需要导入os,os.system(cmd)

#! python3

# -*- coding: utf-8 -*-

import os, codecs

import jieba

from collections import Counter

def get_words(txt):

seg_list = jieba.cut(txt)

c = Counter()

for x in seg_list:

if len(x)>1 and x != '\r\n':

c[x] += 1

print('常用词频度统计结果')

for (k,v) in c.most_common(100):

print('%s%s %s %d' % (' '*(5-len(k)), k, '*'*int(v/3), v))

if __name__ == '__main__':

with codecs.open('19d.txt', 'r', 'utf8') as f:

txt = f.read()

get_words(txt)

def statistics(astr):

# astr.replace("\n", "")

slist = list(astr.split("\t"))

alist = []

[alist.append(i) for i in slist if i not in alist]

alist[-1] = alist[-1].replace("\n", "")

return alist

if __name__ == "__main__":

code_doc = {}

with open("test_data.txt", "r", encoding='utf-8') as fs:

for ln in fs.readlines():

l = statistics(ln)

for t in l:

if t not in code_doc:

code_doc.setdefault(t, 1)

else:

code_doc[t] += 1

for keys in code_doc.keys():

print(keys + ' ' + str(code_doc[keys]))

中文时需可以使用文件字符串

# 上一篇：java的基本数据类型有哪些

# 下一篇：Go语言怎么样？

给您推荐相同类型的内容：

go语言到底有什么好处
1. 部署简单Go 编译生成的是一个静态可执行文件，除了glibc外没有其他外部依赖。这让部署变得异常方便：目标机器上只需要一个基础的系统和必要的管理、监控工具，完全不需要操心应用所需的各种包、库的依赖关系，大大减轻了维护的负担。2. 并发
r语言线性回归分析怎么看正负相关
看回归方程y=a+bx中的b值的正负，如果b是正数，就是正相关；如果b是负数，就是负相关。b值只能用来判断相关性的正负，但b并不是相关系数，相关系数在线性回归方程中是确定系数R^2的平方根R值，其正负号由b值的正负号决定。你先试试这样lm.
java，python，go可以同时学吗
每种语言都有自己的侧重点，如果可以的话建议题主还是分开学，循序渐进，如果学习同时学习三种语言，容易记混不说，反而容易导致学习进度停滞不前。知了姐就来跟大家详细说说java，python，go三种语言之间的区别，仅供题主参考~01 Pyt
ruby设置成微信号前面是什么意思
计算机编程语言Ruby，一种简单快捷的面向对象（面向对象程序设计）脚本语言，在20世纪90年代由日本人松本行弘(Yukihiro Matsumoto)开发，遵守GPL协议和Ruby License。它的灵感与特性来自于 Perl、Small
R语言中的渐变色
如何使用R语言画出漂亮的图，颜色很重要，既要协调，又有有一定的分辨力。可以拿到任意多个颜色，当然颜色越多，分辨力越低。 barplot(rep(1,8), col=rainbow(8),border=NA) rainbow(8)
请看一个C语言调用自定义函数求解m的n次冥的问题。
1.c语言规定变量名不能和函数名重名2.形参可以和实参重名,也可以不重名.当重名的时候this.p表示实参,p表示形参.3.你的pow函数的返回值的类型是int,所以当返回的值为小数的时候,小数部分被截取掉了,因此无论小数部分是什么,都职能
复现详解：纯R代码实现ssGSEA算法评估肿瘤免疫浸润程度
GSE112996_merged_fpkm_table.txtGSE112996_series_matrix.txt，把GSE112996_series_matrix.txt解压，得到如下两个文件，把这两个文件放到对应的project文件夹
c语言入门教学
初学C语言程序设计的基本方法和技巧C语言是一门应用最广泛的基础高级编程语言,有很多语言都是由它发展而来的,所以学习好C语言之后再学习任何一种编程语言都会轻松上手。1 熟记基本知识点学习C语言和学习任何一种语言的方法基
c语言矩阵求每行的和
#include&ltstdio.h&gtint main(){ 如果没有学过动态内存分配就这样写吧int a[10][10], i = 0, j = 0, m, n, sum[10] = { 0 }p
java软件开发到底是干什么的？
软件开发的内容是：需求、设计、编程和测试。1、需求：它不仅仅是用户需求，更应该是开发中客户遇到的所有的需求。比如，你首先要知道做这个项目是为了解决什么问题；测试案例中应该输入什么数据。2、设计：编码前，你肯定有个计划要做什么，结构是怎样等。
北大青鸟学java要多少钱啊
北大青鸟学Java的学费大概是两万三。一般而言，大型机构或者说相对靠谱的机构，它的学费可能稍微贵一些，但是这类机构的课程内容、教学老师、就业服务等都是很出色的。毕竟会定期更新课程，以便接轨企业的用人需求。而且教学老师也是从企业的一线技术大牛
各种宝石代表什么寓意
问题一：各种宝石的象征意义士多啤梨晶 Strawberry Quartz 可增强爱情运、令思路更清晰及让心境平和。孔雀石 Malchite 由多种矿物产生而成，它有凝聚朋友的效能，将人与人之间的沟通关系变得更和谐。水胆玛瑙
python中判断变量是否存在
方法一：使用try: ... except NameError: ...。方法二：内置函数。 res1 = 'test' in locals ().keys() res2 = &#
Python绘图如何显示中文标题
plt.title('标题') 会显示不出中文原因是标题默认输出英文，如果输出中文，要对字体进行调整。需要在程序定义前输入： #解决中文显示问题 plt.rcParams['font.sans
java环境变量
首先环境变量其实就是一组变量，就如你在java定义的变量一样，它的作用是给系统和应用程序提供参数。具体到细节，例如path，它是系统中的一个重要变量，它告诉系统和应用程序一些系统必备的程序的存储位置，例如你想在命令行窗口中使用ipconfi
GO语言商业案例（六）：PayPal
创建 PayPal 的目的是使金融服务民主化，并使个人和企业能够加入并在全球经济中蓬勃发展。这项工作的核心是 PayPal 的支付平台，该平台使用专有技术和第三方技术的组合来高效、安全地促进全球数百万商家和消费者之间的交易。随着支付平台变得
请问在R语言中是用exp（x）表示e^x吗？
是的。R语言中exp函数，用法和作用均与MATLAB中相同。MATLAB中也有exp函数。如果在命令窗口中输入：exp(0)则输出：1。其实MATLAB和C中的exp函数和数学中以e为底的指数函数都是一样的。高等数学里的以e为底的指数函
R语言之书笔记：常见的概率分布
两种可能结果的离散随机变量概率分布，失败是0，成功是1，p是成功的概率。dbinorm() ：提供任何有效x的概率质量函数pbinom() ：提供累积概率分布，求结果成功q次及q次以下的累积概率,给定分位数值q,输出累
阿里面试必备：100个高频Spring面试题，助你一臂之力！
100个高频Spring面试题，让面试也能聊出花！1、 Spring是什么？ 2、Spring框架的好处？ 3、Spring有哪些模块？ 4、解释Core Container（Application context）模块
如何部署Golang应用
如何部署Golang应用安装supervisord# 通过载入程式 ez_setup.py 来安装。这个载入程式会联网下载最新版本setuptools来安装，同时也可以更新本地的setuptools。wget :peak.tel
java是什么语言？
1、Java是一种计算机编程语言java是一种计算机语言语言我们说的普通话、英语都是语言，语言是一种交流的工具，语言具有创造性和结构性，并且代表一定的意义。比如我说下课了，大家都明白什么意思，证明这个语句的意思表达清楚了，正规的语言在交
Python读取一个字符串,并循环输出几遍
总共六个字符python可以通过str*2重复输出字符串printstr*2#输出字符串两次，循环代码块就是将取到的每个字符进行打印输出，总共六个字符，就循环执行了6次。接下来我们使用For循环遍历一个列表。import pandas as
java开发对电脑配置有什么要求？
看个人需求。。我一本不玩大型游戏，，所以i5或者与之类似的都可以。。但是有一点，笔记本的内存一定要大。。。现在做java开发。最起码是8g内存。。。。。不过如果你是用idea做开发，内存起步是8g（只能开一个idea），开多个idea就得1
如何使用R语言进行卡方检验
我们想知道喝牛奶对感冒发病率有没有影响，以下为数据统计的四格表：从上文中我们通过卡方计算公式手动计算出P在0.1到0.5,说明牛奶对感冒发病率没有影响。下面我们通过R计算一下具体p直：x&lt-matrix(c
go语言json处理
json是一种经常使用的数据格式，下面总结一下json的使用 json与struct转换的话struct的属性必须首字母大写。当用的多了就会发现一个致命的问题：go默认会将特殊字符转义采用以下方法可以解决：处理方法1 处
python字典操作函数
字典是一种通过名字或者关键字引用的得数据结构，其键可以是数字、字符串、元组，这种结构类型也称之为映射。字典类型是Python中唯一内建的映射类型，基本的操作包括如下： (1)len()：返回字典中键—值对的数量； (2)d[k]:返
python3.11安装教程
操作步骤如下：1、点击网址进入Python官网下载。2、下载Python解释器。3、下载完成我们会在文件夹里面看到一个名称为：python-3、11、0-amd64、exe的文件。从底部链接中下载好安装包，对着他右击。解压到Python 3
python实现自动播放网易云音乐
# -*- coding: UTF-8 -*- import pyautogui import pyperclip import time name = input('请输入想听的音乐:') def
冲压机构及送料机构设计
第一节冲床冲压机构、送料机构及传动系统的设计一、设计题目设计冲制薄壁零件冲床的冲压机构、送料机构及其传动系统。冲床的工艺动作如图5—1a）所示，上模先以比较大的速度接近坯料，然后以匀速进行拉延成型工作，此后上模继续
CSGO怎么调成中文啊
《CS：GO》游戏里的语言的跟着steam游戏平台的语言变化的，所以只需把steam游戏平台的语言设置为中文即可。以下是steam设置中文的方法：1、打开steam游戏平台2、点击右上角的“Steam”3、在弹出是菜单点击“设置”，在弹

推荐阅读

热门文章

最新发布

标签列表

如何用python对文章中文分词并统计词频

给您推荐相同类型的内容：