python词频分析关键词频数与word检索的结果不一致?

Python013

python词频分析关键词频数与word检索的结果不一致?,第1张

jieba是分词计数,你在word中搜索是不分词匹配。

对于【...开发展示功能..】,jieba不会匹配到【发展】而word搜索会匹配:

jieba得到的是'开发','展示','功能'三个词。

出现原因:文件不是 UTF8 编码的,而系统默认采用 UTF8 解码。

解决方法是改为对应的解码方式。

解决办法:

“文件–》另存为”,可以看到文件的默认编码格式为ANSI,改为编码格式UTF8,保存

 #! python3

# -*- coding: utf-8 -*-

import os, codecs

import jieba

from collections import Counter

 

def get_words(txt):

    seg_list = jieba.cut(txt)

    c = Counter()

    for x in seg_list:

        if len(x)>1 and x != '\r\n':

            c[x] += 1

    print('常用词频度统计结果')

    for (k,v) in c.most_common(100):

        print('%s%s %s  %d' % ('  '*(5-len(k)), k, '*'*int(v/3), v))

 

if __name__ == '__main__':

    with codecs.open('19d.txt', 'r', 'utf8') as f:

        txt = f.read()

    get_words(txt)