最新发布

# 2023-02-09
鸿蒙OS2.0九大新功能，详细玩机技巧
鸿蒙OS适配后，相比EMUI新增了九大功能！赶快保存或者手机搜索玩机技巧。一、HarmonyOs 桌面提供了服务卡片、大文件夹与小艺建议,让操作更便捷、桌面更美观。服务卡片:无需打开应用,可快速预览应用信息或使用常用功能。将不同
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
荣耀机型开启HarmonyOS 2内测，另有17款华为机型即将启动
目前，可以说华为自主研发的鸿蒙HarmonyOS系统正在如火如荼地开展升级及测试工作，而作为华为曾经的子品牌荣耀品牌的机型很多小伙伴都在期待获得HarmonyOS 2的测试，而最新消息来了，荣耀机型开启HarmonyOS内测了。根据最
# 2023-02-09
华为HarmonyOS与安卓对比：鸿蒙系统的强大不止于此
自从HarmonyOS 2上线后，HarmonyOS优越的性能表现让大家眼前一亮，我认为该系统最大的优点就是可在后台打开多个大型游戏且能保持游戏不中断，即后台保活率高。据测评媒体@小白测评的实验数据显示搭载H
# 2023-02-09
鸿蒙抄袭安卓？看这一篇就够了
01什么是 AOSP ？很多人都说鸿蒙是 AOSP 套壳，那么我们首先得明白什么是 AOSP？ AOSP 是"Android Open Source Project&
# 2023-02-09
华为的鸿蒙系统是是什么语言开发的？
根据华为公布的方舟编译器资料，可以得知鸿蒙系统是用C、C++语言编写。鸿蒙系统和方舟编译器的思路是一样：直接使用机器语言编写app，取消安卓系统的ART虚拟机，直接编译为二进制机器码；这样的好处是：不需要中转，执行速度快；劣势是：必须要
# 2023-02-09
鸿蒙HarmonyOS系统用户已突破3000万，跻身第三大操作系统？
华为HarmonyOS操作系统用户已经突破3000万，计划2021年底突破三亿台设备北京时间7 月 8 日，华为官方透露，华为 Harmony OS 2.0 用户已经达到 3000 万。新系统发布仅一个多月，相当于每天有一百
# 2023-02-09
华为harmonyos是什么系统
演示机型：华为P50 系统版本：HarmonyOS 2华为harmonyos是鸿蒙系统。鸿蒙系统一款全新的面向全场景的分布式操作系统，创造一个超级虚拟终端互联的世界，将人、设备、场景有机地联系在一起，将消费者在全场景生活中接触的多
# 2023-02-09
华为平板m6能升级鸿蒙吗？
华为平板M6 10.8英寸、华为平板M6 8.4英寸、华为平板M6 高能版可以升级HarmonyOS系统。升级方式：进入设置 &gt系统和更新，点击软件更新。升级HarmonyOS 2前，您的平板需同时满足下列条件：（1）升级版本前
# 2023-02-09
华为手机升级鸿蒙系统音乐不能同步到华为音箱
要将手机和鸿蒙系统音乐进行蓝牙配对。匹配方法：1、在鸿蒙系统手机的主页面中从右上边向下滑动，调出控制中心。2、点击【音频播控中心】，播放音乐、新人或者是有声小说等。3、进入音频播控中心中，点击右上角的位置。4、选择切换音频输出设备，以华为音

R语言中特殊值NaN、Inf 、NA、NULL

2023-02-22 22:59:02Python010

R语言中特殊值NaN、Inf 、NA、NULL,第1张

1. NaN

R中的无定义数用NaN表示，即“Not a Number（非数）”。

不过在R中，R实际上是把NaN视作一个数的，当其参与运算时，返回结果总是NaN。我们可以使用is.nan()函数来检测计算结果有无定义，但是需要注意的是，对于NaN而言，is.finite()和is.infinite()都会返回FALSE。

2. NA

NA表示缺失值，即“Missing value”，是“not available”的缩写

3. Inf

R中的无穷大用Inf表示（即Infinity，无穷大），负无穷表示为-Inf。

要检查一个数是否为无穷，可以使用is.finite()或者is.infinite()函数

3. NULL

R语言中，NA代表位置上的值为空，NULL代表连位置都没有，变量为空，其长度为0，表明“空无一物”

将两个数据进行除法运算

而log2_foldchange就是我们需要的数据，发现里面有许多 NaN、 -Inf 、Inf ，想办法进行数据清洗。

都到这一步了，再绘制两个图形玩玩:

R语言中存在一些空值（null-able values），当我们进行数据分析时，理解这些值是非常重要的。

通常来说，R语言中存在：

这四种数据类型在R中都有相应的函数用以判断。

NA即Not available，是一个 长度为1的逻辑常数 ，通常代表缺失值。NA可以被强制转换为任意其他数据类型的向量。

可以采用is.na()进行判断。另外，NA和“NA”不可以互换。

NULL是一个 对象（object） ，当 表达式或函数产生无定义的值 或者 导入数据类型未知的数据 时就会返回NULL。

可以采用is.null()进行判断。

NaN即Not A Number，是一个 长度为1的逻辑值向量 。

可以采用is.nan()进行判断。另外，我们可以采用is.finite()或is.infinite()函数来判断元素是有限的还是无限的，而对NaN进行判断返回的结果都是False。

Inf即Infinity无穷大，通常代表一个很大的数或以0为除数的运算结果，Inf说明数据并没有缺失（NA）。

可以采用is.finite()或is.finite()进行判断。

理解完四种类型数值以后，我们来看看该采取什么方法来处理最最常见的缺失值NA。

小白学统计在推文《有缺失值怎么办？系列之二：如何处理缺失值》里说“ 处理缺失值最好的方式是什么？答案是：没有最好的方式。或者说，最好的方式只有一个，预防缺失，尽量不要缺失。 ”

在缺失数很少且数据量很大的时候，直接删除法的效率很高，而且通常对结果的影响不会太大。

如数据框df共有1000行数据，有10行包含NA，不妨直接采用函数na.omit()来去掉带有NA的行，也可以使用tidyr包的drop_na()函数来指定去除哪一列的NA。

用其他数值填充数据框中的缺失值NA。

使用tidyr包的replace_na()函数。

使用tidyr包的fill()函数将上/下一行的数值填充至选定列中NA。

除此之外，类似原理的填充法还有均值填充法（用该变量的其余数值的均值来填充）、LOCF（last observation carried forward）、BOCF（baseline observation carried forward）、WOCF（worst observation carried forward）等。

当分类自变量出现NA时，把缺失值单独作为新的一类。

在性别中，只有男和女两类，虚拟变量的话以女性为0，男性为1。如果出现了缺失值，可以把缺失值赋值为2，单独作为一类。由于将缺失值赋值，在统计时就不会把它当做缺失值删除，避免了由于这一个变量缺失而导致整个观测值被删除的情况。

假定有身高和体重两个变量，要填补体重的缺失值，我们可以把体重作为因变量，建立体重对身高的回归方程，然后根据身高的非缺失值，预测体重的缺失值。

参考资料：

R语言-v1-基础知识

Iretara 12-17 21:18

以例题的形式简述R语言基础知识

# 读取文件

setwd(" 文件链接的时候，用 / ")

install.packages(" readxl ")

library(readxl)

library (tidyverse)

hw1_a<- read_excel ("hw1_a.xlsx", col_types=c("numeric", "numeric", "numeric", "numeric", "numeric") )

hw1_b<- read_excel ("hw1_b.xlsx")

#读取csv

library(readr)

hw1_a<- read_csv ("/")

View(hw1_a)

# 描述型函数

hw1_a + hw1_b 表

#描述最小值，最大值，中值，均值，标准差

Str (hw1_a) #查看数据并指出各个变量的形式

summary (hw1_a) #指出各个变量的形式，最小值，最大值，中值，均值

library(psych)

describe (hw1_a) #比summary更简便的方法，可以直接读取标准差等；但是，使用describe不可读取 NA值, 可以尝试使用 Hmisc包中 describe

描述型函数-R

# 连接

hw1_a %>% inner_join (hw1_b, by ="ID")

hw1_a %>% left_join (hw1_b, by ="ID")

hw1_a %>% right_join (hw1_b, by ="ID")

hw1_a %>% full_join (hw1_b, by ="ID")

inner_join<- inner_join (hw1_a,hw1_b, by =“ID”) #报告合并后的总行数，178行

full_join<- full_join (hw1_a,hw1_b, by ="ID")

( nrow (full_join)) #报告合并后的总行数，200行

> length (full_join$ID)

#找出各个列的缺失值

i<-NA

a<-NA

for(i in 1:length(full_join[1,])){ a[i]<- sum(is.na( full_join[,i] ) ) }

paste("缺失值是",a)

#缺失值总数

sum(is.na(full_join))

#删除缺失值 na.omit()

full_join1=filter(full_join,!is.na(full_join[2]))

full_join1=filter(full_join1,!is.na(full_join1[3]))

full_join1=filter(full_join1,!is.na(full_join1[4]))

full_join1=filter(full_join1,!is.na(full_join1[5]))

full_join1=filter(full_join1,!is.na(full_join1[6]))

full_join1=filter(full_join1,!is.na(full_join1[7]))

full_join1=filter(full_join1,!is.na(full_join1[8]))

sum(is.na(full_join1))

找出Income中的极端值并滤掉对应行的数据

quantile (hw1_a$Income,c(0.025,0.975))

hw1_a2= filter (hw1_a,Income>14168.81 &Income<173030.92)

#使用dplyr进行数据转换

arrange()

>arrange (hw1_a,Income) #默认升序

>arrange(hw1_a, desc (Income)) #desc降序，NA排序一般最后

select()

>select (hw1_a, - (Years_at_Address:Income)) #不要变量

>rename (hw1_a, In_come=Income) #改名

>select（hw1_a,Income, exerything ()） #把Income放在前面

拓例题1：

library(nycflights13)

view(flights)

#counts

（1）

not_cancelled <- flights %>%

filter(! is.na(dep_delay), !is.na(arr_delay))

（2）

not_cancelled %>%

group_by (year,month,day) %>%

summarize (mean=mean(dep_delay))

（3）

delays <- not_cancelled %>%

group_by (tailnum) %>%

summarize (delay=mean(arr_delay))

ggplot (data=delays,mapping=aes(x= delay))+

geom_freqpoly (binwidth=10) #freqpoly

（4）

delays <- not_cancelled %>%

group_by(tailnum) %>%

summarize(delay=mean(arr_delay,na.rm=TRUE), n=n() ) #tailnum的次数

ggplot(data=delays,mapping=aes(x= n, y=delay))+

geom_point(alpha=1/10)

拓例题2：

#请按照价格的均值，产生新的变量price_new, 低于均值为“低价格”，高于均值为“高价格”。同样对市场份额也是，产生变量marketshare_new, 数值为“低市场份额”和“高市场份额”

price=data1$price

pricebar=mean(price)

price_new= ifelse (price>pricebar,“高价格”,”低价格”)

marketshare=data1$marketshare

marketsharebar=mean(marketshare)

marketshare_new=ifelse(marketshare>marketsharebar ,“高市场份额”,”低市场份额”)

data1= mutate (data1,price_new,marketshare_new)

#可视化

#将Income 对数化

lninc<- log (hw1_a$Income)

#画出直方图和 density curve密度曲线

hist (lninc,prob=T)

lines ( density (lninc),col="blue")

# 添加额外变量的办法，在 aes()中添加样式 (color、size、alpha、shape)

ggplot(data=inner_join)+

geom_point(mapping = aes(x=Years_at_Employer,y= Income, alpha= Is_Default))

# 按照Is_Default 增加一个维度，使用明暗程度作为区分方式

ggplot(data=inner_join)+

geom_point(mapping = aes(x=Years_at_Employer,y= Income,

alpha=factor( Is_Default ) ))

#使用形状作为另外一种区分方式

ggplot(data=inner_join)+

geom_point(mapping = aes(x=Years_at_Employer,y= Income,

shape=factor( Is_Default)))

可视化-R

拓展：

#将 flight1 表和 weather1 表根据共同变量进行内连接，随机抽取 100000 行数据，将生产的结果保存为 flight_weather。 (提示：sample_n()函数，不用重复抽取)

flight_weather <- inner_join(flight1, weather1) %>% sample_n(100000)

# 从 flight_weather表中对三个出发机场按照平均出发延误时间排降序，并将结果保留在 longest_delay表中。把结果展示出来

longest_delay<- flight_weather %>%

group_by(origin) %>%

summarize(delay=mean(dep_delay, na.rm=TRUE )) %>%

arrange(desc(delay))

#根据不同出发地（origin）在平行的 3 个图中画出风速 wind_speed（x 轴）和出发延误时间 dep_delay（y 轴）的散点图。

ggplot(data= flight_weather) +

geom_point(mapping=aes(x=wind_speed,y=dep_delay))+

facet_grid(.~origin, nrow = 3 ) # 按照class分类，分成3行

#根据 flight_weather 表，画出每个月航班数的直方分布图，x 轴为月份，y 轴是每个月份航班数所占的比例。

ggplot(data=flight_weather)+

geom_bar(mapping=aes(x=month, y=..prop .., group=1))

#根据 flight_weather 表，画出每个月航班距离的 boxplot 图，x 轴为月份，y 轴为航行距离, 根据的航行距离的中位数从低到高对 x 轴的月份进行重新排序

ggplot(data=flight_weather)+

geom_boxplot(mapping=aes(x= reorder (month,distance,FUN=median),y=distance))

线性回归

# 以Income作为因变量，Years at Employer作为自变量，进行 OLS回归

m1<- lm (Income ~ Years_at_Employer,data=hw1_a)

#通过***判断显著性

summary (m1)

#画出拟合直线

ggplot(data= hw1_a)+

geom_point(aes(x=Income,y=Years_at_Employer))+

geom_abline(data= m1,col= "blue")

#证明拟合直线是最优的

b0=runif(20000,-5,5)

b1=runif(20000,-5,5)

d<-NA

sum<-NA

n<-1

while(n<=20000){

for(i in 1:24){

d[i]<-(hw1_a $ Income[i]-b0[n]-b1[n]*hw2$ Years_at_Employer[i])^2}

sum[n]<-sum(d)

n<-n+1

}

resi=m1$residuals

resi2=sum(resi^2)

check=sum(as.numeric(sum<resi2))

check

缺失变量函数数据结果

# 上一篇：c语言中的union是什么意思啊?

# 下一篇：java是网络编程语言吗