最新发布

# 2023-02-09
HarmonyOs 网络安全配置，允许应用使用明文流量传输
"deviceConfig": { "default": { "process": "xxx", "directLaunch":
# 2023-02-09
鸿蒙HarmonyOS系统用户已突破3000万，跻身第三大操作系统？
华为HarmonyOS操作系统用户已经突破3000万，计划2021年底突破三亿台设备北京时间7 月 8 日，华为官方透露，华为 Harmony OS 2.0 用户已经达到 3000 万。新系统发布仅一个多月，相当于每天有一百
# 2023-02-09
华为平板m6能升级鸿蒙吗？
华为平板M6 10.8英寸、华为平板M6 8.4英寸、华为平板M6 高能版可以升级HarmonyOS系统。升级方式：进入设置 &gt系统和更新，点击软件更新。升级HarmonyOS 2前，您的平板需同时满足下列条件：（1）升级版本前
# 2023-02-09
极客简报｜华为跌倒苹果吃饱；HarmonyOS 用户破亿
本周苹果召开新品发布会，iPhone 13 系列、iPad 9、iPad mini 6 以及 Apple Watch Series 7 正式亮相，大多数产品已于本周开卖，最快 9 月 24 日即可到手。极客之选
# 2023-02-09
鸿蒙系统的缩小屏幕功能
鸿蒙系统的缩小屏幕功能说明如下：首先在屏幕的左侧、右侧滑动并长按打开侧边栏；在侧边栏选择需要分屏的应用，可上下滑动选择应用，可以点击最下方的按钮查看更多应用。选择应用后，将会在屏幕上直接以小窗口的形式显示；可按住上方的横条进行拖动，也可
# 2023-02-09
鸿蒙抄袭安卓？看这一篇就够了
01什么是 AOSP ？很多人都说鸿蒙是 AOSP 套壳，那么我们首先得明白什么是 AOSP？ AOSP 是"Android Open Source Project&
# 2023-02-09
华为harmonyos 3有哪些特性?
华为harmonyos 3的特性：1、HarmonyOS 3体验更安全、更流畅HarmonyOS3系统会进一步打通各个设备之间的协同性，并且在系统性能表现和隐私安全上有所加强。HarmonyOS 3在安全性方面，新增了剪切板隐私保护、模糊
# 2023-02-09
p50HarmonyOS新桌面有哪些功能？
HarmonyOS 提供服务卡片、大文件夹和小艺建议，让您把重要信息放在眼前，操作更快捷，屏幕也更个性化。P50手机系统为HarmonyOS 2，具体功能如下：状态栏：通过顶部状态栏查看手机状态、通知消息。大文件夹：无需展开文件夹，可一步打
# 2023-02-09
HarmonyOS技术特性
最近,随着华为的一批电子设备升级鸿蒙系统,鸿蒙系统的热度也逐渐升高。这里分享一下鸿蒙系统的定位及底层特性,让人们比较深入的认识一下鸿蒙系统。 HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。
# 2023-02-09
harmonyos声音调到最大还是小怎么办
如果您的手机外放声音小，可以通过以下方法进行排查处理：1.请确保喇叭没有被遮挡请确保设备使用匹配的保护壳、保护套，避免喇叭的出音口位置被遮挡。2.更换播放音源或者播放APP后尝试3.提前备份好数据(QQ、微信等第三方应用需单独备份)更新版本

R语言缺失值处理

2023-04-16 19:11:02Python018

R语言缺失值处理,第1张

2016-08-23 05:17 砍柴问樵夫

数据缺失有多种原因，而大部分统计方法都假定处理的是完整矩阵、向量和数据框。

缺失数据的分类：

完全随机缺失：若某变量的缺失数据与其他任何观测或未观测变量都不相关，则数据为完全随机缺失（MCAR）。

随机缺失：若某变量上的缺失数据与其他观测变量相关，与它自己的未观测值不相关，则数据为随机缺失（MAR）。

非随机缺失：若缺失数据不属于MCAR或MAR，则数据为非随机缺失（NMAR）。

处理缺失数据的方法有很多，但哪种最适合你，需要在实践中检验。

下面一副图形展示处理缺失数据的方法：

处理数据缺失的一般步骤：

1、识别缺失数据

2、检测导致数据缺失的原因

3、删除包含缺失值的实例或用合理的数值代替（插补）缺失值。

1、识别缺失数据：

R语言中， NA 代表缺失值， NaN 代表不可能值， Inf 和 -Inf 代表正无穷和负无穷。

在这里，推荐使用 is.na ， is.nan ， is.finite ， is.infinite 4个函数去处理。

x<-c(2,NA,0/0,5/0)

#判断缺失值

is.na(x)

#判断不可能值

is.nan(x)

#判断无穷值

is.infinite(x)

#判断正常值

is.finite(x)

推荐一个函数： complete.case() 可用来识别矩阵或数据框中没有缺失值的行！

展示出数据中缺失的行（数据集sleep来自包VIM）

sleep[!complete.cases(sleep),]

判断数据集中有多少缺失

针对复杂的数据集，怎么更好的探索数据缺失情况呢？

mice包中的 md.pattern() 函数可以生成一个以矩阵或数据框形式展示缺失值模式的表格。

备注：0表示变量的列中没有缺失，1则表示有缺失值。

第一行给出了没有缺失值的数目（共多少行）。

第一列表示各缺失值的模式。

最后一行给出了每个变量的缺失值数目。

最后一列给出了变量的数目（这些变量存在缺失值）。

在这个数据集中，总共有38个数据缺失。

图形化展示缺失数据：

aggr(sleep,prop=F,numbers=T)

matrixplot(sleep)

浅色表示值小，深色表示值大，默认缺失值为红色。

marginmatrix(sleep)

上述变量太多，我们可以选出部分变量展示：

x <- sleep[, 1:5]

x[,c(1,2,4)] <- log10(x[,c(1,2,4)])

marginmatrix(x)

为了更清晰，可以进行成对展示：

marginplot(sleep[c("Gest","Dream")])

在这里(左下角)可以看到，Dream和Gest分别缺失12和4个数据。

左边的红色箱线图展示的是在Gest值缺失的情况下Dream的分布，而蓝色箱线图展示的Gest值不缺失的情况下Dream的分布。同样的，Gest箱线图在底部。

2、缺失值数据的处理

行删除法：数据集中含有缺失值的行都会被删除，一般假定缺失数据是完全随机产生的，并且缺失值只是很少一部分，对结果不会造成大的影响。

即：要有足够的样本量，并且删除缺失值后不会有大的偏差！

行删除的函数有 na.omit() 和 complete.case()

newdata<-na.omit(sleep)

sum(is.na(newdata))

newdata<-sleep[complete.cases(sleep),]

sum(is.na(newdata))

均值/中位数等填充：这种方法简单粗暴，如果填充值对结果影响不怎么大，这种方法倒是可以接受，并且有可能会产生令人满意的结果。

方法1：

newdata<-sleep

mean(newdata$Dream,na.rm = T)

newdata[is.na(newdata$Dream),"Dream"]<-1.972

方法2：

Hmisc包更加简单，可以插补均值、中位数等，你也可以插补指定值。

library(Hmisc)

impute(newdata$Dream,mean)

impute(newdata$Dream,median)

impute(newdata$Dream,2)

mice包插补缺失数据：链式方程多元插值，首先利用mice函数建模再用complete函数生成完整数据。

下图展示mice包的操作过程：

mice()：从一个含缺失值的数据框开始，返回一个包含多个完整数据集对象（默认可以模拟参数5个完整的数据集）

with()：可依次对每个完整数据集应用统计建模

pool()：将with()生成的单独结果整合到一起

library(mice)

newdata<-sleep

data<-mice(newdata,m = 5,method='pmm',maxit=100,seed=1)

在这里，m是默认值5，指插补数据集的数量

插补方法是pmm：预测均值匹配，可以用methods(mice)查看其他方法

maxit指迭代次数，seed指设定种子数（和set.seed同义）

概述插补后的数据：

summary(data)

在这上面可以看到数据集中变量的观测值缺失情况，每个变量的插补方法， VisitSequence 从左至右展示了插补的变量，预测变量矩阵（PredictorMatrix）展示了进行插补过程的含有缺失数据的变量，它们利用了数据集中其他变量的信息。（在矩阵中，行代表插补变量，列代表为插补提供信息的变量，1

和0分别表示使用和未使用。）

查看整体插补的数据：

data$imp

查看具体变量的插补数据：

data$imp$Dream

最后，最重要的是生成一个完整的数据集

completedata<-complete(data)

判断还有没有缺失值，如果没有，结果返回FLASE

anyNA(completedata)

针对以上插补结果，我们可以查看原始数据和插补后的数据的分布情况

library(lattice)

xyplot(data,Dream~NonD+Sleep+Span+Gest,pch=21)

图上，插补值是洋红点呈现出的形状，观测值是蓝色点。

densityplot(data)

图上，洋红线是每个插补数据集的数据密度曲线，蓝色是观测值数据的密度曲线。

stripplot(data, pch = 21)

上图中，0代表原始数据，1-5代表5次插补的数据，洋红色的点代表插补值。

下面我们分析对数据拟合一个线性模型：

完整数据：

library(mice)

newdata<-sleep

data<-mice(newdata,m = 5,method='pmm',maxit=100,seed=1)

model<-with(data,lm(Dream~Span+Gest))

pooled<-pool(model)

summary(pooled)

fim指的是各个变量缺失信息的比例，lambda指的是每个变量对缺失数据的贡献大小

缺失数据（在运行中，自动会行删除）：

lm.fit <- lm(Dream~Span+Gest, data = sleep，na.action=na.omit)

summary(lm.fit)

完整数据集和缺失数据集进行线性回归后，参数估计和P值基本一直。缺失值是完全随机产生的。如果缺失比重比较大的话，就不适合使用行删除法，建议使用多重插补法。

kNN插值法： knnImputation函数使用k近邻方法来填充缺失值。对于需要插值的记录，基于欧氏距离计算k个和它最近的观测。接着将这k个近邻的数据利用距离逆加权算出填充值，最后用该值替代缺失值。

library(DMwR)

newdata<-sleep

knnOutput <- knnImputation(newdata)

anyNA(knnOutput)

head(knnOutput)

cogcreategraphiclabeltool怎么显示坐标

plot()函数默认会绘制坐标轴，当需要单独设置坐标轴时，可以先将axes参数设置为FALSE，再使用axis()进行设置，语法结构如下：

axis(side, at = NULL, labels = TRUE, tick = TRUE, line = NA,

pos = NA, outer = FALSE, font = NA, lty = "solid",

lwd = 1, lwd.ticks = lwd, col = NULL, col.ticks = NULL,

hadj = NA, padj = NA, gap.axis = NA, ...)

登录后复制

side：需要添加坐标轴的位置，1-4分别用于指定底部、左侧、上侧和右侧的坐标轴；

at：需要添加刻度线的位置；

labels：设置是否添加刻度标签；

tick：设置是否显示轴线和刻度线；

line：坐标轴线与边框的行距，同mtext()的同名参数，可忽略；

pos：指定绘制坐标轴线的坐标，可忽略；

outer：为TRUE时以outer margin作为参考；

font、lty、lwd、lwd.ticks、col、col.ticks：美化参数；

hadj、padj：分别用于设置刻度标签与坐标轴线在阅读方向的水平、垂直方向上的距离；

gap.axis：设置刻度标签的最小距离；

...：par()中的相关参数。

plot(sin, 0, 2*pi, type = "l", axes = F)

axis(1, c(0, pi/2, pi, 3*pi/2, 2*pi))

axis(2, c(0, 0.5, 1), labels = F)

axis(3, seq(0, 2*pi, pi/2), tick = F)

axis(4, c(-1, -0.5, 0), line = -2, hadj = 0, col.ticks = "red")

登录后复制

3 图例

R语言的基础绘图系统默认不带图例，需要自定义，相关函数为legend()，语法结构如下：

legend(x, y = NULL, legend, fill = NULL, col = par("col"),

border = "black", lty, lwd, pch,

angle = 45, density = NULL, bty = "o", bg = par("bg"),

box.lwd = par("lwd"), box.lty = par("lty"), box.col = par("fg"),

pt.bg = NA, cex = 1, pt.cex = cex, pt.lwd = lwd,

xjust = 0, yjust = 1, x.intersp = 1, y.intersp = 1,

adj = c(0, 0.5), text.width = NULL, text.col = par("col"),

text.font = NULL, merge = do.lines &&has.pch, trace = FALSE,

plot = TRUE, ncol = 1, horiz = FALSE, title = NULL,

inset = 0, xpd, title.col = text.col, title.adj = 0.5,

seg.len = 2)

登录后复制

先绘制一个含有两条曲线的图形：

plot(1:10, sin(1:10), type = "b", pch = 21, col = "red")

lines(1:10, cos(1:10), type = "b", pch = 22, col = "blue")

登录后复制

基本的图例样式

x和y：图例摆放的位置，可以使用坐标，也可以使用如下关键字："bottomright"、 "bottom"、 "bottomleft"、"left"、 "topleft"、 "top"、"topright"、 "right" 和 "center"，此时y缺省；

legend：图例的描述文本；

title：图例标题；

用于区分组别的参数，常见的如形状、颜色等。

plot(1:10, sin(1:10), type = "b", pch = 21, col = "red")

lines(1:10, cos(1:10), type = "b", pch = 22, col = "blue")

legend("bottomleft", legend = c("sin(x)", "cos(x)"), title = "图例",

pch = c(21, 22), lty = 1, col = c("red", "blue"), pt.bg = "white")

登录后复制

用于区分组别的参数

点要素：pch、cex、col、pt.bg、pt.cex、pt.lwd；

线要素：lty、lwd、col；

merge：控制是否将点、线作为整体，默认为TRUE；

面或箱型要素：fill（填充色）、border（边框颜色）。

plot(1, type = "n")

legend("topleft", legend = c("A", "B"),

pch = c(21, 22), lty = 1, col = c("red", "blue"))

legend("topright", legend = c("A", "B"),

pch = c(21, 22), lty = 1, col = c("red", "blue"),

merge = F)

legend("left", legend = c("A", "B"), pch = 21, pt.bg = c("red", "blue"))

legend("right", legend = c("A", "B"), lty = c(1,2), lwd = 2, col = c("red", "blue"))

legend("center", legend = c("A", "B"), fill = c("red", "blue"), border = "green")

登录后复制

设置图例的颜色、边框

bg：图例的背景色；

box.lty、box.lwd、box.col：图例边框的线条类型、宽度和颜色。

plot(1, type = "n")

legend("left", legend = c("A", "B"), fill = c("red", "blue"),

bg = "grey")

legend("right", legend = c("A", "B"), fill = c("grey", "grey"), box.col = c("red", "blue"))

legend("center", legend = c("A", "B"), fill = c("grey", "grey"), box.lty = 2, box.col = "red")

登录后复制

对齐与距离调整

xjust、yjust：图例位置与坐标的对齐方式，xjust默认为0，即左对齐；yjust默认为1，即上对齐；

x.intersp、y.intersp：分别调整图例中水平、垂直方向的间距；

adj：调整图例文本的位置，正数表示向默认位置左侧或下侧调整，负数表示向右侧或上侧调整；

inset：使用关键词设置图例位置时，控制图例边缘与plot side的位置，以plot region长宽的分数表示。

plot(1, type = "n")

legend(0.8, 1, legend = c("A", "B"), fill = c("red", "blue"), bg = "grey",

xjust = 1, yjust = 0)

legend(0.8,1, legend = c("A", "B"), fill = c("grey", "grey"), box.col = c("red", "blue"),

x.intersp = 2, y.intersp = 2)

legend("center", legend = c("A", "B"), fill = c("grey", "grey"), box.lty = 2, box.col = "red",

adj = c(-2, 2))

legend("bottom", legend = c("A", "B"), fill = c("grey", "grey"), box.lty = 2, box.col = "red",

inset = 0.05)

登录后复制

图例文本美化

text.width、text.col、text.font；

title.col、title.adj：图例标题的颜色和水平对齐方式；

ncol：图例内要素列数，默认为1；

horiz：为TRUE时水平方向排列图例要素，此时参数ncol失效。

plot(1, type = "n")

legend("center", legend = c("A", "B"), fill = c("red", "blue"), bg = "grey",

text.col = c("red", "blue"), text.font = 3)

legend("top", legend = c("A", "B"), fill = c("red", "blue"), bg = "grey", title = "图例",

title.col = "green", title.adj = 1)

legend("left", legend = c("A", "B"), fill = c("red", "blue"), bg = "grey",

ncol = 2)

legend("right", legend = c("A", "B"), fill = c("red", "blue"), bg = "grey",

horiz = T)

登录后复制

其他plot：为FALSE时图例不显示。

缺失数据变量图例函数

# 上一篇：js实现图片滚轮、按钮缩放大小，图片旋转，图片拖拽

# 下一篇：淘宝装饰海报尺寸是多少？装修海报不贴合怎么办？