如何用python对文章中文分词并统计词频

2023-02-14 14:24:01Python030

如何用python对文章中文分词并统计词频,第1张

1、全局变量在函数中使用时需要加入global声明

2、获取网页内容存入文件时的编码为ascii进行正则匹配时需要decode为GB2312，当匹配到的中文写入文件时需要encode成GB2312写入文件。

3、中文字符匹配过滤正则表达式为ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分组

4、KEY，Value值可以使用dict存储，排序后可以使用list存储

5、字符串处理使用split分割，然后使用index截取字符串，判断哪些是名词和动词

6、命令行使用需要导入os,os.system(cmd)

#! python3

# -*- coding: utf-8 -*-

import os, codecs

import jieba

from collections import Counter

def get_words(txt):

seg_list = jieba.cut(txt)

c = Counter()

for x in seg_list:

if len(x)>1 and x != '\r\n':

c[x] += 1

print('常用词频度统计结果')

for (k,v) in c.most_common(100):

print('%s%s %s %d' % (' '*(5-len(k)), k, '*'*int(v/3), v))

if __name__ == '__main__':

with codecs.open('19d.txt', 'r', 'utf8') as f:

txt = f.read()

get_words(txt)

中文时需可以使用文件字符串

# 上一篇：python解决csv文件用excel打开乱码问题

# 下一篇：为啥python读取数据库中文全是问号，应该如何处理

给您推荐相同类型的内容：

为啥python读取数据库中文全是问号，应该如何处理
#coding:utf-8st="你从数据库中读入的字符串"st=st.decode("GBK") #或者查看一下数据库中的编码格式print st以前用php连mssqy时也经常出现中文乱码（中文变
大佬们谁有老男孩教育的Python爬虫视频教程百度云链接，万分感谢
Python入门视频教程：Python全栈开发+AI人工智能：https:ke.oldboyedu.comdetailterm_606fc3e4565c0_rGsnNW25?product_id=term_606fc3e456
python中min函数怎么用
min() 方法返回给定参数的最小值，参数可以为序列1、示例代码a = min([1, 4, 5, 7, 8, 0])b = min(1, 45, 67, -90)print(a)print(b)2、示例结果0-90可以一起用的。m
python语言包括哪些实现
Python是一种计算机程序设计语言，由吉多·范罗苏姆创造，第一版发布于1991年，可以视之为一种改良的LISP。Python的设计哲学强调代码的可读性和简洁的语法。相比于C++或Java，Python让开发者能够用更少的代码表达想法。自从
易语言与Python哪个抢购好
易语言。python适合做框架程序，就是把其他编程语言的程序组合起来。不要用python做太多行的代码，python不适合写超长程序。易语言（EPL）是一种使用中文作为其程序代码的编程语言。它被称为“简易”，其创始人是吴涛。简易语言的早期版
为什么c语言表达式中 5+12 等于5
5+12在C语言中确实等于5。原因如下：是C语言中算术运算符中的除号；该符号同时具有整数除和实数除的功能，当两个运算对象都是整数就做整数除，有一个运算对象是浮点数时就执行实数除。所谓整数除就是舍弃余数，只留下商；因此52的结果是2，
C语言怎么用递归法求阶乘
n的阶乘，就是从1开始乘到n,即1*2*3*...*(n-1)*n。即n!=1*2*3*...*(n-1)*n。而(n-1)!=1*2*3*...*(n-1)。所以可以得出，n!=(n-1)!*n。由这个概念，可以得出递归求阶乘函数fact
查看python模块中所有函数
随着使用python的时间越来越长，安装的python模块也越来越多，有的模块不常用，也渐渐会忘了里面有哪些函数；或者，一个新的python模块，没有官方文档，要想知道调用哪些函数，怎么调用那些函数，于是乎就需要查看一下自己安装的pytho
C语言程序设计现代方法怎么样
本科阶段是以C语言作为编程入门语言的，当时采用的教材是清华乔林的一本书，参考教材是谭老先生的书。之后关于C语言自己也看了很多书，一直以来觉得C语言的书目虽汗牛充栋，但是想找到一本适合自己的入门级的书却很难。神书《C程序设计语言》虽然是设计者
在c语言中函数和结构体的区别
一个程序通常围绕这两个方面进行：数据存储和数据操作；结构体是一种数据类型，用来将不同类型的数据组合在一起，决定数据的存储问题（比如在内存占多大的空间来，系统怎么解释存储数据的位数据啦等等）同int， double 等编译器内置的数据类型基本
python代码如何转换成C语言代码？代码如下：
转换c语言后的代码：void tset(int s[],int n){ for(int i=0i&ltni++)s[i]=s[i]+1}int s[]={1, 2, 3, 4, 5, 5, 6, 1, 4, 5, 5, 7, 1
python新项目怎样创建
python创建新项目的方法：1、打开pycharm，按顺序单击File&gtnew Project&gtPure Python2、单击Create，最后单击Attaach就可以在当前窗口创建新项目了更多Python知
Python 基础知识全篇-字符串（Strings）
单引号和双引号字符串可以包含在单引号或双引号中。这种灵活的方式可以让我们在字符串中包含引号。当我们需要创建一个多行字符串的时候，可以用三个引号。如下所示：改变大小写你可以很方便的改变字符串的大小写。如下所
如何用Python爬虫抓取网页内容?
爬虫流程其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤模拟请求网页。模拟浏览器，打开目标网站。获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。那么我们该
小黑教育计算机二级python软件用的python是什么版本?
使用的最古老的python3.0版本，没有信息提示和命令提示的版本。考试大纲先说说我们考试的题型，我讲的可能稍微会细一点，主要是照顾小白同学，大佬不喜欢请绕道，一：考试环境1. windows 7操作系统这个大家不陌生，机房里的电脑大多都是
新概念51单片机C语言教程的作品目录
第1篇入门篇1.1单片机概述1.1.1什么是单片机1.1.2单片机标号信息及封装类型1.1.3单片机能做什么1.1.4如何开始学习单片机1.251单片机外部引脚介绍1.3电平特性1.4二进制与十六进制1.4.1二进制1.4.2十六进制1.5
python - serial communication（串口通信）
由于测试工作的需要，在C端产品上经常使用串口进行通信，而测试脚本大部分时候又采用python编写，于是就不得不了解并熟悉python下的串口通信实现方法了，整理如下以备随时使用：一、说明pyserial封装了python环境
python 什么是http异步请求
http请求为耗时IO操作，如果同步阻塞的话，进程会等待请求完成。异步的话，进程会发出http请求(请求以后不需要cpu)，然后跳转到别的任务，直到http请求完成，再调回来继续处理得到的http回应。最经典的例子就是烧水，同步阻塞就是你一
树莓派中设置Python虚拟开发环境
我们可以创建虚拟开发环境，避免开发时所使用的环境与本机环境发生冲突。首先，为开发环境创建一个子目录然后使用下面的命令创建虚拟环境目录：然后进入虚拟环境这是，我们可以升级虚拟环境中的pip: 升级完成后，查看一下pip的
Python中.2f是什么意思
将该浮点数float保留两位小数。Python解释器易于扩展，可以使用C语言或C++（或者其他可以通过C调用的语言）扩展新的功能和数据类型。Python 也可用于可定制化软件中的扩展程序语言。Python丰富的标准库，提供了适用于各个主要系
C语言中指向指针的指针怎么理解
指针可以理解为一个存地址的寄存器，存的就是地址，“指向指针的指针” 就是二级指针假设另一个指针是int *q而q的指针就是 &ampq，p = &ampq；作用为了获取这个地址。指针变量能指向任意一个变量(包括指针变量)指向
Python对数学要求高不,数学不好可以学Python不
应该说，比较容易。用python续写猜数字游戏（加入循环）_百度经验https:jingyan.baidu.comarticlec843ea0bc6b72877931e4adc.html怎么用python写一个九九乘法表_百度经
为什么python爬取图片时在指定的文件为空
路径有问题。Python是一种跨平台的计算机程序设计语言，是ABC语言的替代品，属于面向对象的动态类型语言，python爬取图片时在指定的文件为空是因为路径有问题，需要重新选择路径进行操作。如图提示RuntimeError，提示您需要Pyt
C语言中%什么意思
“%”在c语言中有两种释义，一是求余符号，经常会用到判断一个数是不是能被另一个整除；二是引导符，用于引导输入输出项表列的格式，C语言运算符号的种类编辑：1、算术运算符用于各类数值运算。包括加(+)、减(-)、乘(*)、除()、求余(或
怎样用c语言编写ATM系统
真正的ATM系统不可能只是用C语言编写的，它应该是一套完整独立的系统，核心代码更机密，不会轻易的泄露。C语言可以写一个类似于ATM系统的框架，用以模拟ATM机上的各种操作。框架代码如下：#include&ltiostream.h
Python析构函数
Python中有两个特殊的方法, 一个是构造函数 init , 另一个是析构函数 del ，统称为魔术方法。构造函数 init ，创建实例对象之后Python会自动执行此方法，把初始化的属性特点放到实例对象里。构造函数是创建并
请问使用Python (Pygame)在mac上写小的游戏，调用pygame.sprite.groupcollide()时的bug
一次移动是"跳过"移动速度这么多的像素,而不过逐个像素的移动方法groupcollide()是检测两个精灵组中精灵们的矩形冲突速度过快导致精灵单次移动就直接跨越了另一个精灵,就不存在两个精灵矩形的冲突,就不会检测到就像走
GBDT 如何实现特征组合提取?
以Python调用sklearn为例，在你建立GBDT对象并作fit之后，可以使用如下代码获得你要的规则代码：dot_data = tree.export_graphviz(model_tree, out_file=None,max_d
python读取Excel实现接口自动化并生成测试报告
#读取多条测试用例#1、导入requests模块 importrequests #从 class_12_19.do_excel1导入read_data函数 fromdo_excel2 importread_data from
C语言如何让调用笔记本的USB接口啊，求实例
1.打开usb接口上的设备，或者打开usb控制器，涉及到windows的驱动访问。一般访问设备使用CreateFile打开设备，然后使用ReadFileWriteFile读写设备。2.例程：handle hFile = CreateFil

推荐阅读

热门文章

最新发布

标签列表

如何用python对文章中文分词并统计词频

给您推荐相同类型的内容：