R语言之实战分析

Python031

R语言之实战分析,第1张

采编自 DataMiningWithR

2.1 观察各个变量数据的规范性

几乎每个变量都有异常值存在,多是异常大值

2.2 观察变量间的相关性

2.3 双变量间的相关性

由上可知,"oPO4"和"PO4"高度相关,达到0.91

2.4 观察单个变量的数据分布情况

左图可明显判断异常值的存在,右图可展现数据在不同范围内的分布集中度

3.1 了解缺失值的基本分布情况

3.2 直接删除缺失值,在缺失值占比很少的情况采用

3.3 基于一定的规则填充缺失值

4.1 数据准备和聚类预览

初步判断,可分为4组

4.2 层次聚类

4.3 kmeans均值聚类 (1)

4.3 kmeans均值聚类 (2)

4.1 盖帽法处理异常值

即分别设定数据的上下限,高于上限的用上限替换,低于下限的用下限替换

4.2 盖帽法处理异常值后重现考察数据的分布情况

《R语言实战》百度网盘pdf最新全集下载:

链接: https://pan.baidu.com/s/1l4j98ELscMCHhfUd9Qxn2w

?pwd=2zte 提取码: 2zte

简介:本书注重实用性,是一本全面而细致的R指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近200页内容,介绍数据挖掘、预测性分析和高级编程。