Python常用的几种去重方法

2023-04-29 02:04:02Python019

Python常用的几种去重方法,第1张

case1:用集合的特性set()，去重后顺序会改变

case1.1：可以通过列表中索引（index）的方法保证去重后的顺序不变

case2:使用循环查找的方式，不改变顺序

case3:通过删除索引

case4:itertools.groupby

case5:fromkeys

case6:reduce方法

Python 第19课：数据清洗之去错、去空、去重

时间 2019-02-01 下午3：30

主讲刘培富

地点四楼电教室

数据清洗是数据治理的关键环节，是指对获取的原始数据（也称“脏数据”）进行审查、校验、加工的过程，目的在于删除重复信息、纠正错误信息，保持数据一致性。

一般来说，数据清洗，主要是对数据进行去错、去空、去重处理。

针对一张包含姓名、身份证号码、车牌号码的数据表，建立纠错规则如下：

1.车牌号既不包含汉字赣，且不包含汉字饶。

2.身份证号码的年份既不等于19也不等于20，身份证号码的月份大于12，身份证号码的日期大于31。

3.身份证号码位数不等于18。

4.姓名的长度小于等于1。

二、去空

对于关键性数据，不允许为空，对于这类数据，要查询是否存在空值。

三、去重

在一张表中，有的数据列允许重复，有的数据列则不允许重复。例如，对于一张车主信息表来说，姓名、身份证号可以重复，因为存在一人登记多辆车的情形，这种重复，不能认为是错误。但是，车牌号则不允许重复，否则就存在业务逻辑的错误。所以，针对车牌号数据列，要进行去重。

通过以下SQL语句，可以列出重复的数据：

综上，数据清洗，既要懂技术，更要懂业务，否则无法正确制定清洗规则，导致数据清洗流于形式，达不到清洗的效果。

df.drop_duplicates('item_name')

方法一：

df.drop_duplicates('item_name').count()

方法二：

df['item_name'].nunique()

结果：50

附：nunique()和unique()的区别：

unique()是以数组形式（numpy.ndarray）返回列的所有唯一值（特征的所有唯一值）

nunique()即返回的是唯一值的个数

比如：df['item_name'].unique()

要求：将下表中经验列将按周统计的转换为经验不限，保留学历

df1['经验'] = df1['经验'].apply(lambda x: '经验不限'+ x[-2:] if '周' in x else x)

#解释：将‘5天/周6个月’变成‘经验不限’，然后保留学历‘本科’

方法二：定义函数

def dataInterval(ss):

if '周' in ss:

return '经验不限'+ ss[-2:]

return ss

df1['经验'] = df1['经验'].apply(dataInterval)

数据经验身份证号码方法不允许

# 上一篇：发动机CAF和CSS和JLH那个好

# 下一篇：css网页布局方式 css布局的几种方式

给您推荐相同类型的内容：

《D3.js数据可视化实战手册》epub下载在线阅读，求百度网盘云资源
《D3.js数据可视化实战手册》（[加]Nick Qi Zhu）电子书网盘下载免费在线阅读资源链接：链接：https:pan.baidu.coms1rUVmSL08GciR6wS8sLC63Q提取码：9nlh 书名：D3
【R语言作图】如何在地图上任意位置画饼图直方图等
1.利用R包rworldmap &amprworldxtra来作图。 2.已有的map数据中一个国家对应一个坐标，一个国家边界，利用这些已有数据+用户数据构建新的画图数据（其他新添加的图均是如此）。文件逗号分隔，每列的说明
python 怎么求标准正态分布某个值
示例：1、from numpy import *2、def rand_Matrix():3、randArr=random.randn(2,3)4、randMat=mat(randArr)5、return randMat一种结果如
via浏览器默认主页网址是
打开AppVia 默认浏览器via浏览器是是比悦动小、比uc快的浏览器应用软件，采用简洁的浏览器界面设计，提高搜索框权重，避免用户被其他新闻等等信息干扰，让浏览器回归搜索与浏览的本质，以提高效率。默认百度搜索，可以自由切换搜索引擎。一般浏览
谁能给我一个常用的CSS的命名规则？
页头：header 登录条：loginBar 标志：logo 侧栏：sideBar 广告：banner 导航：nav 子导航：subNav 菜单：menu 子菜单：subMenu 搜索：search 滚动：scroll 页面主体：main
css的问题
我理解的并不是很深刻但是希望能对你有所启发以下是原创正文：css到底是什么？css据我理解也算是一种语言，专业术语叫超文本层叠样式表，css的功能非常的强大，好像是温谦老师说的爱上CSS，css：像艺术家一样浪漫，像工程师一样严禁。说实话
CSS如何显示一个从左上角开始展开的弹窗，最终是显示在屏幕中间，思路是什么，请大神指导下。
思路应该是一个从0%到100%的动画展开的效果，大概需要写0%，50%，100%三个样式。弹窗的css代码大概是:position: fixedz-index: 2000left: 0top: 0这样弹窗的左上角原点在页面最左上角，如果要
java字符串怎么转换成时间date格式，并把date再转换成毫秒
楼上的转化是不安全的在中国的电脑上很多就执行不了。应该这样： DateFormat df1 = new SimpleDateFormat("dd-MMM-yy HH:mm",Locale.US)必须要指定本地的语
夏老师讲C语言视频哪里能找到？
免费的在网上有很多，直接在搜索引擎上搜索即可下载。1、程语语言其实是一个很初级的工具，但是又必须熟练的掌握它，学懂一门编程语言就好像学会了写字，但是会写字的人不见得会写文章，而会写文章又不见的写得好。可是如果不会写字，那就一定写不出文章来。
如何在官网下载java的api？
http:www.oracle.comtechnetworkjavajavasedocumentationjava-se-7-doc-download-435117.html 这个是官网的下载地址这个是jdk7的api在下
求郝斌老师的C语言180教程网盘版的
《C语言视频教程》百度网盘高清资源免费在线观看链接：https:pan.baidu.coms1qiSgpEBY5eb-K5LZsCnvSA 提取码：8yck作品相关介绍：C语言是一门面向过程的、抽象化的通用程序设计语言，广泛应
CSS 轮播图的实现（纯CSS，连续滑动无倒滑效果）
简单demo：使用HTML+CSS 实现轮播图（三张图为例，分别为：红、绿、蓝）的效果。不能发视频，截图来代替吧 1.显示轮播图1（实际轮播的第2个元素li） 2.显示轮播图2（实际轮播的第3个元素li） 3.显示轮
jquery 实现加入购物车功能
参考以下代码：注意需要导入jquery.js.&lt!DOCTYPE html&gt &lthtml&gt &lthead&gt &lttitle&gt购
css动画效果的各种实现方法与区分，使用transition实现一个简单的翻牌效果
感觉自己总是混淆css各种动画效果，所以再这里总结一下1. transition ，所在元素块样式变动时启动，可用于样式变动时产生过渡动画效果|transition-property| 规定设置过渡效果的 CSS
QQ三国有JS4孔的靴子么
JS和HJ的有,但是只在牛菠萝那里参加的打地鼠活动中,击杀大老鼠和中老鼠可以获得的，级别从40级到60级的都有,但是属性都很差,一般都是10速或者15速的,就算四孔全开也没有一个40速的3孔鞋子好,因此完全可以不考虑.一般要把装备改到 3
java如何获得数据库表中各字段的字段名
import java.sql.*import java.util.ArrayListimport java.util.Hashtableimport java.util.Listpublic class Test{ public stat
完全可定制的富文本编辑框架——Slate.js
Slate 是一个完全可定制的富文本编辑框架。通过 Slate，你可以构建出类似 Medium、Dropbox Paper 或者 Canvas 这样使用直观、富交互、体验也已成为 Web 应用标杆的编辑器。Slate 本身并不是一个编辑器，
javascript获取当月有多少天的疑问
Javascript获取当月的天数：var d = new Date()d.getMonth()+1代表下个月，月份索引从0开始，即当前月为6月时，getMonth()返回值为5，创建日期时同理此处构造的日期为下个月的第0天，天数
Java Swing开发中的线程安全
SwingAPI的设计目标是强大灵活和易用非凡地我们希望能让程序员们方便地建立新的Swing组件不论是从头开始还是通过扩展我们所提供的一些组件出于这个目的我们不要求Swing组件支持多线程访问相反我们向组件发送请求并在单一
什么场景下用Java？什么场景下用python？
答:见解如下。Java在大型网站开发当中用得非常多，对于那些业务成熟稳定的公司来说，Java用得非常多， Python虽然说也可以用于网站网页的制作，在企业中也用得到，但是一般用于比较小型，并发量要求更低的一些网站，但是它的开发周期会短
请问：jc是女子初中生，那女子高中生和女子小学生是什么
在此句中，“JK”是“女高中生”的意思。初中和大学生叫、“JC”。女子小学生没有缩写。“JK”还有第二种用法，JK＝常识的に考えて。“JK”是“常识的に考えて”（从常识角度考虑）的缩写，也可表述成“常考”。可用于想表达“这理所当然的吧”的
R语言Plot函数总结
par(mfrow = c(n,m),mar = c(0,0,0,0),mai = c(0,0,0,0)) mar,mai参数主要是调节图形的margin的大小，顺序是下、左、上、右 R语言中，设置plot(x,y,'..
解决vue ssr css内联样式和link标签重复问题
基于vue-cli3的项目，改造成SSR。服务端渲染会提取组件的样式内联到html中，与link标签中的重复，使得页面体积变大，导致响应时间很慢。原因是ssr会自动进行资源注入 Manual Asset Injection ，包
用JS输出正方形
var len = prompt("输入正方形的行数", 0)len = len &gt10 ? 10 : lenfor(var i = 0i &ltleni++){for(var j = 0j &
如何在js中设定变量值到小数点后两位？
第一种方法： javascript实现保留两位小数一位自动补零代码实例：第一种方法介绍一下如何实现对数字保留两位小数效果，如果数字的原本小数位数不到两位，那么缺少的就自动补零，这个也是为了统一的效果，先看代码实例：function re
STM8的C语言延时及外部中断编程
研究了下，你描述的逻辑好像有矛盾，我疑问如下：控制过程如下：pin17（PC7）收到低电平脉冲信号（脉冲长度多少？），计时器启动（计数时间5秒？），pin19（PD2）输出高电平（在计数计数结束后输出低电平？）；当m为奇数时，pin13（P
在CSS中如何设置一个按钮鼠标划过变颜色。
需要准备的材料分别有：电脑、浏览器、html编辑器。1、首先，打开html编辑器，新建html文件，例如：index.html。2、在index.html中的&ltstyle&gt标签中，输入css代码：button {b
详细说明css的常用选择器类型有哪些
css常用的四种选择器类型有：标签选择器：针对一类标签ID选择器：针对某一个特定的标签使用类选择器：针对你想要的所有标签使用后代选择器：用空格隔开1、标签选择器：选择器的名字代表html页面上的标签标签选择器，选择的是页面上所有这种
python一打开就是源代码模式怎么办
可以打开py模式，Python控制台程序的源代码文件。python作为一种动态语言，其实是一个解释器软件包。当Python运行脚本时，在代码开始进行处理之前，Python还会执行一些步骤。第一步是编译成所谓的“字节码”，如果Python进程
怎么用python写mininet的拓扑
为Mininet添加自定义拓扑：Mininet原生提供了多种拓扑类型：SingleSwitchTopo：简单拓扑（Host——Switch——Host）LinearTopo(k,n)：链状拓扑，k台交换机以单链形态连接，分别下接n台主机Tr

推荐阅读

热门文章

最新发布

标签列表

Python常用的几种去重方法

给您推荐相同类型的内容：