最新发布

# 2023-02-09
鸿蒙HarmonyOS系统用户已突破3000万，跻身第三大操作系统？
华为HarmonyOS操作系统用户已经突破3000万，计划2021年底突破三亿台设备北京时间7 月 8 日，华为官方透露，华为 Harmony OS 2.0 用户已经达到 3000 万。新系统发布仅一个多月，相当于每天有一百
# 2023-02-09
华为手机开机显示Harmony OS是什么情况?
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
harmonyos声音调到最大还是小怎么办
如果您的手机外放声音小，可以通过以下方法进行排查处理：1.请确保喇叭没有被遮挡请确保设备使用匹配的保护壳、保护套，避免喇叭的出音口位置被遮挡。2.更换播放音源或者播放APP后尝试3.提前备份好数据(QQ、微信等第三方应用需单独备份)更新版本
# 2023-02-09
harmonyos是什么
harmonyos是华为鸿蒙系统。鸿蒙OS是华为公司开发的一款基于微内核、耗时10年、4000多名研发人员投入开发、面向5G物联网、面向全场景的分布式操作系统。鸿蒙的英文名是HarmonyOS，意为和谐。不是安卓系统的分支或修改而来的。与
# 2023-02-09
华为手机开机显示Harmony OS是什么情况?
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
harmonyos2.0.0系统好用吗
harmonyos2.0.0系统好用。对于HarmonyOS 2.0系统，最大的感受就是流畅。此前有很多用户担心从EMUI系统过渡到鸿蒙系统会不适应，其实HarmonyOS 2.0系统真的会让用户用了以后爱不释手。不管是服务卡片还是动画过
# 2023-02-09
极客简报｜华为跌倒苹果吃饱；HarmonyOS 用户破亿
本周苹果召开新品发布会，iPhone 13 系列、iPad 9、iPad mini 6 以及 Apple Watch Series 7 正式亮相，大多数产品已于本周开卖，最快 9 月 24 日即可到手。极客之选
# 2023-02-09
p50HarmonyOS新桌面有哪些功能？
HarmonyOS 提供服务卡片、大文件夹和小艺建议，让您把重要信息放在眼前，操作更快捷，屏幕也更个性化。P50手机系统为HarmonyOS 2，具体功能如下：状态栏：通过顶部状态栏查看手机状态、通知消息。大文件夹：无需展开文件夹，可一步打
# 2023-02-09
荣耀机型开启HarmonyOS 2内测，另有17款华为机型即将启动
目前，可以说华为自主研发的鸿蒙HarmonyOS系统正在如火如荼地开展升级及测试工作，而作为华为曾经的子品牌荣耀品牌的机型很多小伙伴都在期待获得HarmonyOS 2的测试，而最新消息来了，荣耀机型开启HarmonyOS内测了。根据最
# 2023-02-09
4月27日华为正式推送鸿蒙系统升级。鸿蒙OS系统你真的了解吗？
4月27日晚，华为向部分机型推送了鸿蒙0S系统小规模公测升级，据可靠消息称，华为将在6月推送大规模正式公测升级。很多人收到了华为Harmony OS的推送，根据各个机型的不同，更新包大小也不相同，有的是2.87 GB，有

R语言-v1-基础知识

2023-02-27 07:04:02Python014

R语言-v1-基础知识,第1张

R语言-v1-基础知识

Iretara 12-17 21:18

以例题的形式简述R语言基础知识

# 读取文件

setwd(" 文件链接的时候，用 / ")

install.packages(" readxl ")

library(readxl)

library (tidyverse)

hw1_a<- read_excel ("hw1_a.xlsx", col_types=c("numeric", "numeric", "numeric", "numeric", "numeric") )

hw1_b<- read_excel ("hw1_b.xlsx")

#读取csv

library(readr)

hw1_a<- read_csv ("/")

View(hw1_a)

# 描述型函数

hw1_a + hw1_b 表

#描述最小值，最大值，中值，均值，标准差

Str (hw1_a) #查看数据并指出各个变量的形式

summary (hw1_a) #指出各个变量的形式，最小值，最大值，中值，均值

library(psych)

describe (hw1_a) #比summary更简便的方法，可以直接读取标准差等；但是，使用describe不可读取 NA值, 可以尝试使用 Hmisc包中 describe

描述型函数-R

# 连接

hw1_a %>% inner_join (hw1_b, by ="ID")

hw1_a %>% left_join (hw1_b, by ="ID")

hw1_a %>% right_join (hw1_b, by ="ID")

hw1_a %>% full_join (hw1_b, by ="ID")

inner_join<- inner_join (hw1_a,hw1_b, by =“ID”) #报告合并后的总行数，178行

full_join<- full_join (hw1_a,hw1_b, by ="ID")

( nrow (full_join)) #报告合并后的总行数，200行

> length (full_join$ID)

#找出各个列的缺失值

i<-NA

a<-NA

for(i in 1:length(full_join[1,])){ a[i]<- sum(is.na( full_join[,i] ) ) }

paste("缺失值是",a)

#缺失值总数

sum(is.na(full_join))

#删除缺失值 na.omit()

full_join1=filter(full_join,!is.na(full_join[2]))

full_join1=filter(full_join1,!is.na(full_join1[3]))

full_join1=filter(full_join1,!is.na(full_join1[4]))

full_join1=filter(full_join1,!is.na(full_join1[5]))

full_join1=filter(full_join1,!is.na(full_join1[6]))

full_join1=filter(full_join1,!is.na(full_join1[7]))

full_join1=filter(full_join1,!is.na(full_join1[8]))

sum(is.na(full_join1))

找出Income中的极端值并滤掉对应行的数据

quantile (hw1_a$Income,c(0.025,0.975))

hw1_a2= filter (hw1_a,Income>14168.81 &Income<173030.92)

#使用dplyr进行数据转换

arrange()

>arrange (hw1_a,Income) #默认升序

>arrange(hw1_a, desc (Income)) #desc降序，NA排序一般最后

select()

>select (hw1_a, - (Years_at_Address:Income)) #不要变量

>rename (hw1_a, In_come=Income) #改名

>select（hw1_a,Income, exerything ()） #把Income放在前面

拓例题1：

library(nycflights13)

view(flights)

#counts

（1）

not_cancelled <- flights %>%

filter(! is.na(dep_delay), !is.na(arr_delay))

（2）

not_cancelled %>%

group_by (year,month,day) %>%

summarize (mean=mean(dep_delay))

（3）

delays <- not_cancelled %>%

group_by (tailnum) %>%

summarize (delay=mean(arr_delay))

ggplot (data=delays,mapping=aes(x= delay))+

geom_freqpoly (binwidth=10) #freqpoly

（4）

delays <- not_cancelled %>%

group_by(tailnum) %>%

summarize(delay=mean(arr_delay,na.rm=TRUE), n=n() ) #tailnum的次数

ggplot(data=delays,mapping=aes(x= n, y=delay))+

geom_point(alpha=1/10)

拓例题2：

#请按照价格的均值，产生新的变量price_new, 低于均值为“低价格”，高于均值为“高价格”。同样对市场份额也是，产生变量marketshare_new, 数值为“低市场份额”和“高市场份额”

price=data1$price

pricebar=mean(price)

price_new= ifelse (price>pricebar,“高价格”,”低价格”)

marketshare=data1$marketshare

marketsharebar=mean(marketshare)

marketshare_new=ifelse(marketshare>marketsharebar ,“高市场份额”,”低市场份额”)

data1= mutate (data1,price_new,marketshare_new)

#可视化

#将Income 对数化

lninc<- log (hw1_a$Income)

#画出直方图和 density curve密度曲线

hist (lninc,prob=T)

lines ( density (lninc),col="blue")

# 添加额外变量的办法，在 aes()中添加样式 (color、size、alpha、shape)

ggplot(data=inner_join)+

geom_point(mapping = aes(x=Years_at_Employer,y= Income, alpha= Is_Default))

# 按照Is_Default 增加一个维度，使用明暗程度作为区分方式

ggplot(data=inner_join)+

geom_point(mapping = aes(x=Years_at_Employer,y= Income,

alpha=factor( Is_Default ) ))

#使用形状作为另外一种区分方式

ggplot(data=inner_join)+

geom_point(mapping = aes(x=Years_at_Employer,y= Income,

shape=factor( Is_Default)))

可视化-R

拓展：

#将 flight1 表和 weather1 表根据共同变量进行内连接，随机抽取 100000 行数据，将生产的结果保存为 flight_weather。 (提示：sample_n()函数，不用重复抽取)

flight_weather <- inner_join(flight1, weather1) %>% sample_n(100000)

# 从 flight_weather表中对三个出发机场按照平均出发延误时间排降序，并将结果保留在 longest_delay表中。把结果展示出来

longest_delay<- flight_weather %>%

group_by(origin) %>%

summarize(delay=mean(dep_delay, na.rm=TRUE )) %>%

arrange(desc(delay))

#根据不同出发地（origin）在平行的 3 个图中画出风速 wind_speed（x 轴）和出发延误时间 dep_delay（y 轴）的散点图。

ggplot(data= flight_weather) +

geom_point(mapping=aes(x=wind_speed,y=dep_delay))+

facet_grid(.~origin, nrow = 3 ) # 按照class分类，分成3行

#根据 flight_weather 表，画出每个月航班数的直方分布图，x 轴为月份，y 轴是每个月份航班数所占的比例。

ggplot(data=flight_weather)+

geom_bar(mapping=aes(x=month, y=..prop .., group=1))

#根据 flight_weather 表，画出每个月航班距离的 boxplot 图，x 轴为月份，y 轴为航行距离, 根据的航行距离的中位数从低到高对 x 轴的月份进行重新排序

ggplot(data=flight_weather)+

geom_boxplot(mapping=aes(x= reorder (month,distance,FUN=median),y=distance))

线性回归

# 以Income作为因变量，Years at Employer作为自变量，进行 OLS回归

m1<- lm (Income ~ Years_at_Employer,data=hw1_a)

#通过***判断显著性

summary (m1)

#画出拟合直线

ggplot(data= hw1_a)+

geom_point(aes(x=Income,y=Years_at_Employer))+

geom_abline(data= m1,col= "blue")

#证明拟合直线是最优的

b0=runif(20000,-5,5)

b1=runif(20000,-5,5)

d<-NA

sum<-NA

n<-1

while(n<=20000){

for(i in 1:24){

d[i]<-(hw1_a $ Income[i]-b0[n]-b1[n]*hw2$ Years_at_Employer[i])^2}

sum[n]<-sum(d)

n<-n+1

}

resi=m1$residuals

resi2=sum(resi^2)

check=sum(as.numeric(sum<resi2))

check

R语言-统计学描述性统计

描述定量数据的数值方法：中心趋势度量变异的度量相对位置的度量。

1.中心趋势度量：算数平均中位数众数

1.1 在R中计算平均数的函数 mean( )常规的mean() 函数用法mean(x, trim = 0, na.rm = FALSE, ...) 参数说明： x 对象名称trim 过滤掉异常值，按照距离平均值的远近距离排除，如对象中含有10个数据，排除最高和最低值，trim=0.2na.rm 默认为F 表示是否计入空值实例1：做一个稍微复杂点的操作，用r做数据透视表并把结果转换为matrix ，对行列求和。(仅娱乐，无实用价值)

demo <- mtcars[1:6,] # 调用R自带函数集，并去前6行

toushi <- aggregate(mtcars[,5:6] ,by = list(cyl = mtcars$cyl),sum) # 数据透视表求和

toushi <- as.matrix(toushi) # 将结果的数据框转化成矩阵

#(toushi <- apply(toushi,c(1,2),sum))

(rowSums(toushi)) # 行求和

(colSums(toushi)) # 列求和

toushi <- rbind(toushi,rowSums(toushi)) #将行求和结果并入最后一行

toushi <- cbind(toushi,colSums(toushi)) #将列求和结果并入最后一列

1.2 中位数和众数

对于偏度极大的数据集，中位数能更好的描述数据分布的中心。

很少用众数作为数据数据趋势的度量，只有当对y出现的相对频率感兴趣时，才会考虑到众数。

R实现中位数：

median(x, na.rm = FALSE)

R中没有直接插找众数的命令

which.max(table(x))

2.变异的度量：极差方差标准差

2.1 .极差 = max（）- min（）

2.2 方差和标准差

对一个有n个测量值的有限总体来说，方差计算公式的分母为n。关于样本方差和总体方差分母的差异原因，可自行百度搜索。

R语言计算方差的函数： var(x,)

w<-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63,5,66.6,64.0,57.0,69.0,56.9,50.0,72.0)

var(w)

# 附加指数点：标准差的两个有用法则：经验法则和切比雪夫法则，共同说明一个问题，对于任意大于1的正数k，至少有（1-1/k^2）的测试值落在平均值的k个标准值范围内。

3.变异的度量：百分位数 Z得分

3.1 .最常见的四分位数（一般从大到小）

quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,names = TRUE, type = 7, ...)

1、在pandas中，我们采用了R语言中的惯用法，即将缺失值表示为NA，它表示不可用not available。

2、pandas项目中还在不断优化内部细节以更好处理缺失数据。

3、过滤掉缺失数据的办法有很多种。可以通过pandas.isnull或布尔索引的手工方法，但dropna可能会更实用一些。对于一个Series，dropna返回一个仅含非空数据和索引值的Series。

4、而对于DataFrame对象，可能希望丢弃全NA或含有NA的行或列。dropna默认丢弃任何含有缺失值的行。

5、最后通过一个常数调用fillna就会将缺失值替换为那个常数值，若是通过一个字典调用fillna，就可以实现对不同的列填充不同的值。这样就完成了。

数据缺失方差中位数度量

# 上一篇：>>> print "hello" SyntaxError: Missing parentheses in call to 'print'

# 下一篇：Ruby和Java有什么关系么?