R语言初步-探索性数据分析EDA-1

Python015

R语言初步-探索性数据分析EDA-1,第1张

探索性数据分析:(exploratory data analysis) ,简称EDA。

例如之前用过的:

生成条形图,展示不同cut钻石的计数结果,cut这个参数的性质决定了它是一个分类变量,所以适合用条形图展示。

条形图中的y轴是geom_bar()函数自行计算的结果,也可以用dplyr::count手动计算:

dplyr::count表示调用dplyr中的count()函数

再比如,有些参数就是连续性的,比如钻石的克拉数carat,所以适合用直方图展示:

直方图会对x轴进行等宽分箱,binwidth参数可以控制间隔宽度,合适的间隔宽度可以揭示不一样的数据特征。比如下面三张图片的区别:binwidth 分别等于0.5、1.0、0.1。

file:接一个文件

data:一般指要输入一个数据框

x:表示单独的一个对象,一般都是向量,也可以是矩阵或者列表

x和y:函数需要两个输入变量

x,y,z:函数需要三个输入变量

formula:公式

...:,在help文档中的三个点表示参数可传递,或者表示参数没有数量限制

na.rm:删除缺失值

color选项和明显用来控制颜色

select 与选择有关

font与字体有关

font.axis 就是坐标轴的字体

lty 是line type,线条类型

lwd是line width,线条宽度

method 软件算法

main:字符串,不能是向量

na.rm : TRUE或者FALSE

axis : side参数只能是1到4,调节坐标轴方向。1,2,3,4分别代表左下右上

fig:包含四个元素的向量

row:排,行

col:列