python词频分析关键词频数与word检索的结果不一致？

2023-02-23 19:55:02Python013

python词频分析关键词频数与word检索的结果不一致？,第1张

jieba是分词计数，你在word中搜索是不分词匹配。

对于【...开发展示功能..】，jieba不会匹配到【发展】而word搜索会匹配：

jieba得到的是'开发','展示','功能'三个词。

出现原因：文件不是 UTF8 编码的，而系统默认采用 UTF8 解码。

解决方法是改为对应的解码方式。

解决办法：

“文件–》另存为”，可以看到文件的默认编码格式为ANSI，改为编码格式UTF8，保存

#! python3

# -*- coding: utf-8 -*-

import os, codecs

import jieba

from collections import Counter

def get_words(txt):

seg_list = jieba.cut(txt)

c = Counter()

for x in seg_list:

if len(x)>1 and x != '\r\n':

c[x] += 1

print('常用词频度统计结果')

for (k,v) in c.most_common(100):

print('%s%s %s %d' % (' '*(5-len(k)), k, '*'*int(v/3), v))

if __name__ == '__main__':

with codecs.open('19d.txt', 'r', 'utf8') as f:

txt = f.read()

get_words(txt)

分词文件的是词频功能

# 上一篇：C语言中结束一次循环的语句是

# 下一篇：葡萄柚的英文

给您推荐相同类型的内容：

R语言进行文本挖掘
介绍使用tidytext进行文本挖掘。整洁的数据应该是这样的对于整洁的文本数据，储存在每行中的数据通常是单个单词，但也可以是n-gram，句子或段落。使用unnest_tokens函数对数据进行处理简单介绍一下unn
R语言绘图（ggplot2、ggpubr）从入门到精通04--柱状图美化之调色
本系列课程要求大家有一定的R语言基础，对于完全零基础的同学，建议去听一下师兄的《生信必备技巧之——R语言基础教程》。本课程将从最基本的绘图开始讲解，深入浅出的带大家理解和运用强大而灵活的ggplot2包。内容包括如何利用ggplot2绘制
《Java遗传算法编程》pdf下载在线阅读全文，求百度网盘云资源
《Java遗传算法编程》百度网盘pdf最新全集下载:链接: https:pan.baidu.coms1l6_14X1Yhcgv8kYwHqyY2g?pwd=xv3v 提取码: xv3v简介：本书简单、直接地介绍了遗传算法，并且针对
最简单的R语言绘图，教你10分钟搞定入门绘图
R语言上手还是比较简单的，我们哪怕是一个小白，但是对于R,也不应该害怕呀，让我们一起来看看R的绘图吧，小白没关系，跟着我走，包您看懂！让您对R越来越感兴趣！哈哈，数据，我们需要数据！在这里我们无需考虑数据来自何处，对于入门，为了增加大
R语言面向对象
对事物越了解，就能够越好的驾驭这种事物。 R语言有四种面向对象的系统，一般而言，使用其中最简单的一种就已经足够了。本文介绍S3，和S4的使用 S3是R中第一个，也是最简单的oo系统，S3不是非常正式，但是其保有一种极简主义的优
ruby怎么读取文件的列数
简单说一下吧，假设你有一个名为example.txt的文件，里面的内容如下：bbb ccc 123ddd aaa 456abc efg 789695 aaa uwi注意，这里我举的例子每一列是用空格分隔的。用ruby读取的代码如下：f =
r语言教程是什么？
R语言教程是指导使用R语言的手册，用于统计分析，图形表示和报告的编程语言和软件环境。R语言由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建，目前由R语言开发核心团队开发。R语言在GNU通用公共许可证下免费提供
R语言如何将界面设置成中文?
iPhone的App store是识别您注册时iTunes账户所填写的国家，如您当时注册iTunes账户“国家地区”填写为国外时，那么App store就会识别显示为英文；专家同事通过自行测试，更改国家的区域为中国，的确可以令App sto
葡萄柚的英文
葡萄柚的英文：grapefruit。短语搭配：grapefruit juice 葡萄柚汁西柚汁蒲萄柚汁柚子汁；Grapefruit Salad 葡萄柚沙拉例例葡萄柚沙拉蒲萄柚沙拉；Grapefruit extract 葡萄柚
C语言瑞年问题？
每4年为一个闰年，而每个世纪初那一年，如1900年，必须是400的倍数方为闰年，所以，也就是说每400年里，有97个闰年。假如年份的变量为year，是否为闰年leapint yearbool leapif (year%4)leap=fal
《Java遗传算法编程》pdf下载在线阅读全文，求百度网盘云资源
《Java遗传算法编程》百度网盘pdf最新全集下载:链接: https:pan.baidu.coms1l6_14X1Yhcgv8kYwHqyY2g?pwd=xv3v 提取码: xv3v简介：本书简单、直接地介绍了遗传算法，并且针对
一个java内部类有几个分类?
共有四种内部类，分别是:1.常规内部类2.静态内部类3.局部内部类4.匿名内部类常规内部类：常规内部类没有用static修饰且定义在在外部类类体中。常规内部类中的方法可以直接使用外部类的实例变量和实例方法。在常规内部类中可以直接用
怎样快速学会电脑？
快速学会电脑基础知识：1、开机关机：零基础学电脑最先要学的是正确开机关机，不建议用休眠模式。开机很简单，直接按主机的电源即可，显示器可以不关。正确的关机方式是鼠标点击电脑桌面左下角的开始，然后点击关闭计算机即可，如果没有鼠标，也可以按照顺序
老谭的C语言程序设计第四版大家认为怎么样
谭老的书怎么说呢平常看看就行了别真当真了很多细节方面语嫣不详而且其代码格式相当不规范对初学者的代码习惯养成起不到一个帮助的功效（很多公司对这方面是有要求的想想面试的时候一手清晰的代码和一团乌漆麻黑的代码之间的差别）总结而言
r语言教程是什么？
R语言教程是指导使用R语言的手册，用于统计分析，图形表示和报告的编程语言和软件环境。R语言由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建，目前由R语言开发核心团队开发。R语言在GNU通用公共许可证下免费提供
Ruby是什么意思。。
Ruby，一种简单快捷的面向对象(面向对象程序设计)脚本语言，在20世纪90年代由日本人松本行弘(Yukihiro Matsumoto)开发，遵守GPL协议和Ruby License。Ruby的变量有一定的规则，以$开头的一定是全局变量，以
《R语言实战（第2版）》pdf下载在线阅读，求百度网盘云资源
《R语言实战（第2版）》（[美] Robert I. Kabacoff）电子书网盘下载免费在线阅读资源链接：链接：https:pan.baidu.coms1LGgzzjw4XSz159P0dCubFA提取码：v2g0书名：R语言
c语言数字反转怎么做？
代码有不懂的地方可以问，会回答的#include&ltstdio.h&gt#include&ltmath.h&gtint main( ){int N , temp , result = 0 scanf(
Go语言可能会代替C语言吗
不可能。Go到目前为止，其本身就是用C写的。只是在语言层面实现了一些如果用C会很难写的feature，比如goroutine。在1.5版本中，Go会bootstraping，用Go来编译自己。C语言，几乎每种操作系统的系统调用都是C，C最大
学编程的话什么语言比较好
随着互联网科技的发展，越来越多的小伙伴看到了IT行业的优势，也正在准备投身代码的学习海洋中。学习语言等于未来发展方向，今天我们来分析一下学编程什么语言比较好。很多想学编程的小伙伴在刚了解IT行业的时候都会比较迷茫，不知道学习哪种语言以后发
java编程题：请按照下列提示编写一个泛型接口以及其实现类？
Generic.java：package com.example.demopublic interface Generic&ltT&gt{void get(T t)}GenericImpl.java：package com.
怎么查电脑mac地址？
按快捷键【WIN+R】调出运行工具。然后再输入CMD,再回车或点击确定输入ipconfig -all命令按回车，就可以看得到这台电脑上的有线和无线网卡的MAC地址。电脑mac地址查询方法一：在“开始”菜单或者同时按下win+R快捷键打开
python编程例子有哪些？
python编程经典例子：1、画爱心表白、图形都是由一系列的点(X，Y)构成的曲线，由于X，Y满足一定的关系，所以就可以建立模型，建立表达式expression，当满足时，两个for循环（for X in range；for Y in r
哪有python视频教程
【033】Python（喵喵教程）百度网盘免费资源在线学习链接: https:pan.baidu.coms1ZS20DsOp-_70wVD9NNxGow提取码: 1ek8 【033】Python（喵喵教程）量化金融项目
电脑怎么进p站？
目前国内已经无法登陆浏览了，必须使用美国或者日本IP访问。不是你本地设备网络或者DNS的问题，而是现在需要连接到海外国际网络才能访问pixiv。rn一系列传统的海外V*N通信技术因为现在的新规定，也都已经停止运营不能再使用了，服务器不是
Go语言——sync.Map详解
sync.Map是1.9才推荐的并发安全的map，除了互斥量以外，还运用了原子操作，所以在这之前，有必要了解下 Go语言——原子操作go1.10srcsyncmap.go entry分为三种情况：从read中读取k
java编程题：请按照下列提示编写一个泛型接口以及其实现类？
Generic.java：package com.example.demopublic interface Generic&ltT&gt{void get(T t)}GenericImpl.java：package com.
c语言程序解读
#include&ltstdio.h&gtmain() { int i,nchar *pa,*spa="Happy"pa指向字符串首地址for(s=pa,n=0*s++s,++n)测出字符串的串长
在mac的os 10.12怎么配置ruby环境
1 打开你的.bash_profile, 把 export PATH=usrlocalCellarruby1.9.3-p327bin:$PATH 加进去2 .bash_login只是针对iterm的吧，真正对环境变量起作用的是.
go语言 python ruby，这三个怎么选择
这选择显然是因人而异的。。至于怎么选，要看你是初学者，还是老手？。。对性能有要求，还是没要求？如果是完全没有基础，我建议哪个都不选，如果非要选一个，那就选PYTHON。。如果你是初学者，把网上的教程看个遍，再买上几本书。。。你所学会的也仅仅

推荐阅读

热门文章

最新发布

标签列表

python词频分析关键词频数与word检索的结果不一致？

给您推荐相同类型的内容：