python脚本,将一个文本中所有开头发音相同的词归到同一行

Python022

python脚本,将一个文本中所有开头发音相同的词归到同一行,第1张

解决方案如下:

使用pip安装程序所依赖的汉字转拼音库pypinyin:

pip install pypinyin

2. 代码如下:

from pypinyin import lazy_pinyin

table = {}

with open('in.txt','r', encoding='utf-8') as f:

    for line in f:

        line = line.strip()

        key = lazy_pinyin(line[0])[0]

        if table.get(key):

            table[key].append(line)

        else :

            table[key] = [line]

with open('result.txt','w',encoding='utf-8') as f:

    for key in table:

        f.write(key)

        for v in table[key]:

            f.write(' ' + v)

        f.write('\n')

注意:

根据需要将代码中的in.txt修改为你要导入的文件

要导入的文件编码需要先转换为utf-8格式

输出文件名为result.txt,编码格式为utf-8

这个不能一概而论的,据说python目前高达27万+个库,看你学习的方向必学模块也有不同,简单列举:

    1、网络通用方面:

urllib -网络库

requests -网络库

pycurl – 网络库

httplib2 – 网络库

RoboBrowser – 浏览网页

MechanicalSoup -一个与网站自动交互Python库

socket – 底层网络接口

2、爬虫方面:

grab – 爬虫框架

scrapy – 网络爬虫框架,不支持Python3

pyspider –爬虫系统。

cola – 爬虫框架

portia – 可视化爬虫

3、HTML/XML解析方面:

lxml – 高效HTML/ XML处理库

cssselect – 解析DOM树和CSS选择器。

pyquery – 解析DOM树和jQuery选择器。

html5lib – 根据WHATWG规范生成HTML/ XML文档的DOM

feedparser – 解析RSS/ATOM feeds。

MarkupSafe – 为XML/HTML/XHTML提供了安全转义的字符串。

xhtml2pdf – 将HTML/CSS转换为PDF。

untangle – XML文件转Python对象

4、文件处理方面:

xpinyin – 将中国汉字转为拼音

tablib – 数据导出为XLS、CSV、JSON、等格式的模块

textract – 从文件中提取文本

messytables – 解析表格数据

rows – 常用数据接口

Office

python-docx – 读取,查询和修改docx文件

xlwt / xlrd – 从Excel文件读取写入数据和格式信息

PDF

Markdown

Python-Markdown – 一个用Python实现的John Gruber的Markdown。

统计抽样是指根据概率理论,从全体调查对象中随机抽取一部分样本单位据以观察,取得样本单位数据而据以推断总体的一种调查方法,非统计抽样是普查、重点调查、典型调查.

非统计抽样是指按照职业判断进行样本设计和实施抽样的技术。非统计抽样的特点:不能对抽样风险进行控制和量化。

对于统计抽样,必须做到2点,

一是随机抽样(总体中各个个体在被抽取时不但都有机会被选中,而且机会均等),

二是对于检查的结果需要用概率论的评价(就是以一个确定的百分比,比如是90%认定总体的某个指标在什么范围之内),包括计量抽样风险(结果中已包括了风险因素,而且知道这个结果中哪部分是对抽样风险的考虑)。

符合上了述条件的才是统计抽样,否则就是非统计抽样。

对于二者记住一个最重要的区别即可,非统计抽样无法量化风险,统计抽样可以量化风险。

非统计抽样更多会用到注册会计师的个人判断,定性分析。

统计抽样更多的是定量的分析。

相关阅读:

数据库插入大量数据时不要忘记先删除索引(小技巧)

solr入门之权重排序方法初探之使用edismax改变权重

sql server查看表占用索引空间(小技巧)

sql server不要插入大数据,开销太大

MongoDB——更新操作(Update)c#实现

solr中facet及facet.pivot理解

Solr --- Group查询与Facet区别

Solr中的group与facet的区别

solr之模糊搜索(Fuzzy matching)

solr之~模糊查询

原文地址:https://www.cnblogs.com/RogerLu/p/13091721.html

最新文章

黄聪:免费C#反编译软件工具。Reflector已经out了,试试ILSpy吧

黄聪:如何使用Add-on SDK开发一个自己的火狐扩展

黄聪:使用Add-on SDK开发火狐扩展

利用python实现汉字转拼音

python 人脸识别

python 文字转语音

arcgis python 获得硬件id

python ocr图片中汉字识别

python 播放MP3和MP4

pycharm 当有多个.py文件在开发环境中时,如何操作可以保证运行当前面对自己的文件?

热门文章

python word转pdf

python创建缩略图和选择轮廓效果

python 图片格式转换png转jpg,如何利用python给图片添加半透明水印

java环境变量的配置

solr的multivalued使用说明

solr联合多个字段进行检索(multivalued和copyfield的使用)

solr的基本概念

Solr学习之二-Solr基础知识

电商总结(八)如何打造一个小而精的电商网站架构

RabbitMQ原理与相关操作(一)

Copyright © 2011-2022 走看看