最新发布

# 2023-02-09
华为手机开机显示Harmony OS是什么情况?
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
harmonyos是什么
harmonyos是华为鸿蒙系统。鸿蒙OS是华为公司开发的一款基于微内核、耗时10年、4000多名研发人员投入开发、面向5G物联网、面向全场景的分布式操作系统。鸿蒙的英文名是HarmonyOS，意为和谐。不是安卓系统的分支或修改而来的。与
# 2023-02-09
harmonyos花式字体怎么调节
1、首先，打开harmonyos手机，然后点击打开设置，点击显示。2、其次，在显示页面中，点击字体大小和粗细。3、最后，在字体大小和粗细中点击字体样式，然后选择花式字体即可调节。华为鸿蒙系统已经上线，那么对于这个系统而言，华为在其他的配套方
# 2023-02-09
harmonyos可以玩原神吗
harmonyos可以玩原神。根据天眼查显示，HarmonyOS2系列，现已推送到多款机型中将正在游玩的《原神》一键从Mate40Pro转到MatePad上。《原神》是由上海米哈游制作发行的一款开放世界冒险游戏。华为于7月12日宣布，H
# 2023-02-09
鸿蒙系统网页捷径怎么关闭
在华为浏览器设置中进行关闭。具体步骤：1.打开华为浏览器点击右下角更多。2.打开按键设置，选择主页设置。3.选择自定义主页，接下来选择自定义网址，就可以让捷径这个功能消失了。首先，您需要了解升级Harmony OS前的准备工作：1.升级前，
# 2023-02-09
p50HarmonyOS新桌面有哪些功能？
HarmonyOS 提供服务卡片、大文件夹和小艺建议，让您把重要信息放在眼前，操作更快捷，屏幕也更个性化。P50手机系统为HarmonyOS 2，具体功能如下：状态栏：通过顶部状态栏查看手机状态、通知消息。大文件夹：无需展开文件夹，可一步打
# 2023-02-09
华为手机升级鸿蒙系统音乐不能同步到华为音箱
要将手机和鸿蒙系统音乐进行蓝牙配对。匹配方法：1、在鸿蒙系统手机的主页面中从右上边向下滑动，调出控制中心。2、点击【音频播控中心】，播放音乐、新人或者是有声小说等。3、进入音频播控中心中，点击右上角的位置。4、选择切换音频输出设备，以华为音
# 2023-02-09
HarmonyOS技术特性
最近,随着华为的一批电子设备升级鸿蒙系统,鸿蒙系统的热度也逐渐升高。这里分享一下鸿蒙系统的定位及底层特性,让人们比较深入的认识一下鸿蒙系统。 HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、

Python第19课：数据清洗之去错、去空、去重

2023-02-20 12:19:01Python011

Python第19课：数据清洗之去错、去空、去重,第1张

Python 第19课：数据清洗之去错、去空、去重

时间 2019-02-01 下午3：30

主讲刘培富

地点四楼电教室

数据清洗是数据治理的关键环节，是指对获取的原始数据（也称“脏数据”）进行审查、校验、加工的过程，目的在于删除重复信息、纠正错误信息，保持数据一致性。

一般来说，数据清洗，主要是对数据进行去错、去空、去重处理。

针对一张包含姓名、身份证号码、车牌号码的数据表，建立纠错规则如下：

1.车牌号既不包含汉字赣，且不包含汉字饶。

2.身份证号码的年份既不等于19也不等于20，身份证号码的月份大于12，身份证号码的日期大于31。

3.身份证号码位数不等于18。

4.姓名的长度小于等于1。

二、去空

对于关键性数据，不允许为空，对于这类数据，要查询是否存在空值。

三、去重

在一张表中，有的数据列允许重复，有的数据列则不允许重复。例如，对于一张车主信息表来说，姓名、身份证号可以重复，因为存在一人登记多辆车的情形，这种重复，不能认为是错误。但是，车牌号则不允许重复，否则就存在业务逻辑的错误。所以，针对车牌号数据列，要进行去重。

通过以下SQL语句，可以列出重复的数据：

综上，数据清洗，既要懂技术，更要懂业务，否则无法正确制定清洗规则，导致数据清洗流于形式，达不到清洗的效果。

python清洗excel的数据还是很简单的

这里就列举例子说一下

这是原始数据，这里要处理的是地区和薪水两个字段。

主要把薪资处理成以千/月为单位。保留城市。

处理后的数据：

####################读取数据======================================================

import pandas as pd

import numpy as np

d1 = pd.read_excel('C:\Users\xn084037\Desktop\清洗数据集.xlsx',sheetname='一级流量')

d1.head(2)

d2 = pd.read_excel('C:\Users\xn084037\Desktop\清洗数据集.xlsx',sheetname='二级流量')

d2.head(2)

d3 = pd.read_excel('C:\Users\xn084037\Desktop\清洗数据集.xlsx',sheetname='三级流量')

d3.head(2)

##########################清洗------01增——拓展数据维度

df_concat = pd.concat([d1,d2,d3])

df_concat

h1 = pd.DataFrame({'语文':[93,80,85,76,58],'数学':[87,99,95,85,70],'英语':[80,85,97,65,88]},

index =['韩梅梅','李雪','李华','王明','铁蛋'])

h1

h2 = pd.DataFrame({'篮球':[93,80,85,76],'舞蹈':[87,99,95,85]},

index= ['李华','王明','铁蛋','刘强'])

h2

pd.merge(left=h1,right=h2,left_index=True,right_index=True,how='inner')

df_concat.dropna()

df_concat.dropna(subset = ['客单价'])

repeat = pd.concat([df_concat,df_concat])

print('重复的数据集一共多少行:',len(repeat))

unique = repeat.drop_duplicates()

print('去重后的数据集一共多少行：',len(unique))

unique

df_concat.drop_duplicates(subset='流量级别')

df_concat.drop_duplicates(subset='流量级别',keep='last')

******************03 查——基于条件查询*********************************

df_concat.loc[(df_concat['访客数']>10000)&(df_concat['流量级别']=='一级'),:]

sort_df= df_concat.sort_values('支付金额',ascending=False)

sort_df

*********************04 分——分组和切分************************************

df_concat.groupby('流量级别')

df_concat.groupby('流量级别').sum()

df_concat.groupby('流量级别').sum()

df_concat.groupby('流量级别')['访客数','支付金额'].sum()

df_concat.groupby('流量级别',as_index=False)['访客数','支付金额'].sum()

pd.cut(x,bins,right,labels)

pd.cut(x=df_concat['访客数'],bins=[0,100,1000,10000,100000])

df_concat['分类打标']= pd.cut(x=df_concat['访客数'],bins=[0,100,1000,10000,100000],

right=False,labels=['辣鸡','百级','千级','万级'])

df_concat

###################Pandas将多个Sheet写入到本地同一Excel文件中

import pandas as pd #读取两个表格data1=pd.read_excel('文件路径')

data2=pd.read_excel('C:\Users\xn084037\Desktop\副本三代核心系统入账金额异常结果数据.xlsx')#将两个表格输出到一个excel文件里面

data1=pd.read_excel('C:\Users\xn084037\Desktop\副本三代核心系统入账金额.xlsx')#将两个表格输出到一个excel文件里面

writer=pd.ExcelWriter('D:新表.xlsx')

data1.to_excel(writer,sheet_name='sheet1')

data2.to_excel(writer,sheet_name='sheet2') #必须运行

writer.save()#不然不能输出到本地writer.save()

数据流量访客级别身份证号码

# 上一篇：神舟电脑怎么样？买家评价好不好？

# 下一篇：为什么网页中css写在页面的头部而javascript写在尾部