解决方案如下:
使用pip安装程序所依赖的汉字转拼音库pypinyin:
pip install pypinyin2. 代码如下:
from pypinyin import lazy_pinyintable = {}
with open('in.txt','r', encoding='utf-8') as f:
for line in f:
line = line.strip()
key = lazy_pinyin(line[0])[0]
if table.get(key):
table[key].append(line)
else :
table[key] = [line]
with open('result.txt','w',encoding='utf-8') as f:
for key in table:
f.write(key)
for v in table[key]:
f.write(' ' + v)
f.write('\n')
注意:
根据需要将代码中的in.txt修改为你要导入的文件名
要导入的文件编码需要先转换为utf-8格式
输出文件名为result.txt,编码格式为utf-8
这个不能一概而论的,据说python目前高达27万+个库,看你学习的方向必学模块也有不同,简单列举:
1、网络通用方面:
urllib -网络库
requests -网络库
pycurl – 网络库
httplib2 – 网络库
RoboBrowser – 浏览网页
MechanicalSoup -一个与网站自动交互Python库
socket – 底层网络接口
2、爬虫方面:
grab – 爬虫框架
scrapy – 网络爬虫框架,不支持Python3
pyspider –爬虫系统。
cola – 爬虫框架
portia – 可视化爬虫
3、HTML/XML解析方面:
lxml – 高效HTML/ XML处理库
cssselect – 解析DOM树和CSS选择器。
pyquery – 解析DOM树和jQuery选择器。
html5lib – 根据WHATWG规范生成HTML/ XML文档的DOM
feedparser – 解析RSS/ATOM feeds。
MarkupSafe – 为XML/HTML/XHTML提供了安全转义的字符串。
xhtml2pdf – 将HTML/CSS转换为PDF。
untangle – XML文件转Python对象
4、文件处理方面:
xpinyin – 将中国汉字转为拼音
tablib – 数据导出为XLS、CSV、JSON、等格式的模块
textract – 从文件中提取文本
messytables – 解析表格数据
rows – 常用数据接口
Office
python-docx – 读取,查询和修改docx文件
xlwt / xlrd – 从Excel文件读取写入数据和格式信息
Markdown
Python-Markdown – 一个用Python实现的John Gruber的Markdown。
统计抽样是指根据概率理论,从全体调查对象中随机抽取一部分样本单位据以观察,取得样本单位数据而据以推断总体的一种调查方法,非统计抽样是普查、重点调查、典型调查.非统计抽样是指按照职业判断进行样本设计和实施抽样的技术。非统计抽样的特点:不能对抽样风险进行控制和量化。
对于统计抽样,必须做到2点,
一是随机抽样(总体中各个个体在被抽取时不但都有机会被选中,而且机会均等),
二是对于检查的结果需要用概率论的评价(就是以一个确定的百分比,比如是90%认定总体的某个指标在什么范围之内),包括计量抽样风险(结果中已包括了风险因素,而且知道这个结果中哪部分是对抽样风险的考虑)。
符合上了述条件的才是统计抽样,否则就是非统计抽样。
对于二者记住一个最重要的区别即可,非统计抽样无法量化风险,统计抽样可以量化风险。
非统计抽样更多会用到注册会计师的个人判断,定性分析。
统计抽样更多的是定量的分析。
相关阅读:
数据库插入大量数据时不要忘记先删除索引(小技巧)
solr入门之权重排序方法初探之使用edismax改变权重
sql server查看表占用索引空间(小技巧)
sql server不要插入大数据,开销太大
MongoDB——更新操作(Update)c#实现
solr中facet及facet.pivot理解
Solr --- Group查询与Facet区别
Solr中的group与facet的区别
solr之模糊搜索(Fuzzy matching)
solr之~模糊查询
原文地址:https://www.cnblogs.com/RogerLu/p/13091721.html
最新文章
黄聪:免费C#反编译软件工具。Reflector已经out了,试试ILSpy吧
黄聪:如何使用Add-on SDK开发一个自己的火狐扩展
黄聪:使用Add-on SDK开发火狐扩展
利用python实现汉字转拼音
python 人脸识别
python 文字转语音
arcgis python 获得硬件id
python ocr图片中汉字识别
python 播放MP3和MP4
pycharm 当有多个.py文件在开发环境中时,如何操作可以保证运行当前面对自己的文件?
热门文章
python word转pdf
python创建缩略图和选择轮廓效果
python 图片格式转换png转jpg,如何利用python给图片添加半透明水印
java环境变量的配置
solr的multivalued使用说明
solr联合多个字段进行检索(multivalued和copyfield的使用)
solr的基本概念
Solr学习之二-Solr基础知识
电商总结(八)如何打造一个小而精的电商网站架构
RabbitMQ原理与相关操作(一)
Copyright © 2011-2022 走看看