Python数据挖掘006-数据集成

Python017

Python数据挖掘006-数据集成,第1张

数据集成就是间来源于多个不同数据源的数据合并存放在一个一致的数据存储(比如数据仓库)中的过程。

不同数据源的数据之间可能会有不匹配或属性重复,所以要考虑实体识别问题和属性冗余问题。

是指从不同数据源识别出现实世界的实体,它的任务是统一不同源数据的矛盾之处。

常见形式有:同名异义,异名同义,单位不统一等。

实体识别问题就是检测和解决这些冲突。

数据冗余,比如:同一属性出现多次,同一属性命名不一致导致重复等。

冗余属性要先检测,再删除掉。冗余属性用相关性分析也能判断出来。

参考资料:

《Python数据分析和挖掘实战》张良均等

python数据分析的门槛较低,如果是python零基础开始学,学习的步骤大概是python基础、数据采集、数据处理、数据分析、数据可视化。

首先学习一点python基础的知识,Python语言基础,函数,文件操作,面向对象,异常处理,模块和包,Linux系统使用,Mysql数据库等;

其次就可以学习一些基本的爬虫,进行数据采集,当然也有很多爬虫工具,直接使用即可。

然后就可以学习数据分析方面知识,主要是学习pandas、numpy等等;

再然后就要学习数据可视化来向别人展现数据,常用matplotlib实现,主要包括一些基本的统计图的绘制,比如条形图,柱状图,散点图。还有一些进阶绘图,比如分位数图,相关系数图等等。还需要掌握3D绘图可视化。