R语言-均值填充缺失值

2023-02-25 02:54:02Python029

R语言-均值填充缺失值,第1张

在基因芯片数据或其他类型数据中，采用计算所有样本的平均值从而进行填充，如果需要用中位数或其他统计量填充时只需修改相应的方法即可

#1. 检查是否有缺失值

which(is.na(mRNA),arr.ind = T)

#2. 计算行均值并填充

#该数据中探针（基因）为行（名），样本为列（名），（数据框内容为表达量数据值型数据数据）格式可见文章最后

row_mean <- apply(mRNA,1,mean,na.rm =T) #1是行，2是列，若用其他方法修改mean即可

mRNA$MEAN <- row_mean

ncol = 样本数

for (i in 1:nrow(mRNA)) {

mRNA[i,is.na(mRNA[i,])] <- mRNA[i,ncol]

}

缺失值被认为是预测建模的首要障碍，尽管一些机器学习算法声称能够从根本上解决这个问题，但是谁又能知道究竟在“黑盒子”里能解决得多好。

缺失值填补方法的选择，在很大程度上影响了模型的预测能力。一般处理方法是直接删除相关行，但这样并不好，因为会造成信息丢失。

Hmice是一个多用途的软件包，可用于数据分析、高级图形、缺失值处理、高级表格制作、模型拟合和诊断(线性回归、 Logit模型和cox回归)等。该软件包包含的功能范围广泛，它提供了两个强大的函数，用于处理缺失值。分别为 impute ()和 aregImpute ()。

impute()函数使用用户定义的统计方法(中间值，最大值，平均值等)来估算缺失值。默认是使用中位数。另一方面，aregImpute()允许使用加性回归、自举和预测平均匹配进行填补（additive regression, bootstrapping, and predictive mean matching）。

bootstrapping对替代原始数据的样本拟合了一个柔性可加模型(非参数回归方法) ，并利用非缺失值(自变量)对缺失值(因变量)进行了预测。然后，使用预测均值匹配(缺省值)来估算缺失值。

使用平均值填充：

使用随机值填充：

同样，还可以使用min,max,median来估算缺失值。

aregImpute ()自动识别变量类型并相应地处理它们：

输出显示预测缺失值的 R 2 值，数值越高，预测的数值越好。还可以使用以下命令查看估算值：

画个好看一点的图：

估算缺失值：

pmm：预测均值匹配(PMM)-用于数值变量

logreg： (Logit模型)-二元变量

polyreg(Bayesian polytomous regression)：因子变量(>=2个水平)

polr：Proportional odds model(ordered, >= 2 levels)

查看估算的缺失值

由于生成有5个输入数据集，您可以使用 complete ()函数选择任何数据集：

还可以使用5个数据集构建模型，最后将结果合并：

对比一下：

使用生成的6个数据集合并后的回归系数与原始数据的回归系数还是非常接近的。

缺失数据模型方法还可以

# 上一篇：python怎么保存

# 下一篇：国内最好的Java培训机构有哪些？

给您推荐相同类型的内容：

如何在java中使用redis
public class RedisListJava { public static void main(String[] args) { 连接本地的 Redis 服务 Jedis jedis = new Jed
C语言数组里面的【i-1】是什么意思怎么计算的顺序原理呢？
goods里面有十个元素 -般的写法是for(i=0i&lt10i++)goods[i]这样i就是0到9而你上面的程序是0到8i小于10最大为99-1=8i-1的值为i的当前值减1i++和i--的区别：1、运算方式i++属于
python是用英语的标点吗
python是用英语的标点。在Python中，默认所有正确的语法，包括标点符号都是英文。不小心用了中文标点的话，计算机会无法识别，然后报错。在终端里，你能看到的最常见的符号报错提示就是syntaxError:invalid syntax(
C语言程序输入10个学生的成绩,要求输出这10个成绩的及格率和优秀率，再输出不及格的成绩
# include&ltstdio.h&gtint main(){int grade[10],NoGood[10],i,j=0,k=0,m=0float PassRate,ExeRateprintf("请输入10个
r的语言是什么呢?
r的语言是计算机的编程语言。r的语言就跟传统的C语言，Java语言类似，但是它又不仅仅是一门计算机语言，这是因为R语言天生为统计而生，所以它做不到像C语言那般的普适，数据分析、统计建模、数据可视化才是它的舞台，R语言天生为统计而生，数据分析
学Java的好处有哪些？
学java有哪些优势一、Java市场无限大。目前，java语言市场占有率达20%，为世界第一编程语言。我国软件行业每年所需的java人才达30万，并且每年以22%左右的速度增长着。由此看来，java发展市场无限大。二、企业级应用平台的霸主
请问下选择哪份工作好一点，android应用软件开发有一年多一点经验了
1.请问去培训的话，选Java还是嵌入式？当然要选择嵌入式，JAVA现在的工资很低，我同事做JAVA四年经验上海也就4500的工资，而嵌入式一般新手就能拿那样的工资，鄙人就是做了多年的嵌入式。2.请问去培训的话，选Java还是嵌入式？先说J
c语言中!表示什么
c语言中！表示逻辑运算中的非运算。“！”是C语言中的非运算符，在变量前面使用它，会构建非运算表达式，表达式的返回结果是个布尔值（也就是只有true或false）。对变量使用时，如果变量不是布尔数据类型，将会强制转化为布尔类型再使用，如整形
如何用R语言在数据中提取指定列数据，并且形成一个新的数据表
1、分析数据表：通过浏览“入库明细”表，我们可能看到入库明细表中，作为提取记录的条件零件号在A列。需要提取的记录，入库日期在H列、入库单号在O列、最后生产批号在L列、入库前库存数在Q列。为DC000496ZL的记录有5条（截图中的4条是指上
谁能给我个完整的java 分页代码谢谢了
import java.sql.Connectionimport java.sql.PreparedStatementimport java.sql.ResultSetimport java.util.Enumerationimport j
python安装的操作系统主要有哪些
支持python开发环境的系统有Linux、OSX和windows，以及所有主要的操作系统中。Linux，Linux系统是为编程而设计的，因此在大多数Linux计算机中，都默认安装了Python。编写和维护Linux的人认为会使用这种系统进
小青蛙爬井 c语言
你错在把scanf语句放在了while里面，而while的脱离条件又是u、n、d至少有一个为0，导致你输入一组正常数据时会一直在循环中出不来，循环的内容就是重复要求输入n、u、d的值。可以这样改：#include&ltstdio.h
Python 从入门到精通推荐看哪些书籍呢？
基础篇1.《笨方法学Python》《笨方法学Python》的英文版，最初的几章有点枯燥，但如果把书里面所有代码都敲一遍，确实能够把基础打好。2.《Python学习手册》这种外国人写的书，都有共同的特点，特别详细，每个知识点给你解释透透的
深度学习 python怎么入门知乎
自学深度学习是一个漫长而艰巨的过程。您需要有很强的线性代数和微积分背景，良好的Python编程技能，并扎实掌握数据科学、机器学习和数据工程。即便如此，在你开始将深度学习应用于现实世界的问题，并有可能找到一份深度学习工程师的工作之前，你可能需
java培训靠谱吗？
java培训靠谱。【点击测试我适不适合学设计】Java是目前世界上最流行的计算机编程语言，是一种可以编写跨平台应用软件的面向对象的程序设计语言。这可以概括JAVA有着自己独特的优势：语言简单、是一个面向对象、分布式应用并且安全、体系结构
python怎么实现矩阵的除法
1、首先打开pycharm软件，新建一个python文件并导入numpy库。2、然后创建矩阵A，这里先创建一个两行两列的数组，在用numpy的mat函数将数组转换为矩阵。3、接着计算矩阵A的逆矩阵，逆矩阵是通过A.I求得。4、求出了矩阵A的
c可以调用python吗
可以的。C中内嵌Python新建立一个工程，首先需要将工作目录设置到Python-3.1.1PCbuild中，以获取到动态库，至于静态库的包含，Include目录的指定，那自然也是少不了的。文件中需要包含Python.h文件，这也是必须的。
“std”是什么意思？
性传播疾病性病标准标准差挂起到硬盘。22%hadsufferedfromSTDinthepastoneyear.22%的调查对象近1a患过性传播疾病。std英文缩写，根据不同的全称解释有不同的意思。STD是指可以通过性接触而传播的疾病,也就
Python中大小写字母转换
1. 在python中主要有四种转换方式，如下图 2. 这里我们举例说明各自的用途： #大小写转换 str3 = "Hello" str4 = "WORLD" str5 = &qu
保存R中的数据
R语言中内置了两种数据格式，除了将数据导出为我们常用的 .xls 、 .csv 外，使用R内置的数据格式可以方便以后的再次计算。 .RDS适合保存单个数据集的数据，如将iris数据保存下来： .RData适合保存整个工作空间的数据
Java主流技术栈有哪些？
后端开发：Spring Boot、MyBatis、HibernateWeb 开发：Spring MVC、Struts、Apache Wicket移动开发：Android、React Native大数据开发：Hadoop、Spark企
捷克这个国家使用什么语言
捷克的官方语言为捷克语，捷克语属印欧语系斯拉夫语族西部语支。现代捷克语由古斯拉夫语发展而来，捷克语有规范捷克语和通俗捷克语之分。规范捷克语主要是书面语言，通俗捷克语则是在日常会话中通用的非正式口语。捷克语主要有四种方言：中捷克方言、摩拉维亚
python如何读取文件的内容
# _*_ coding: utf-8 _*_import pandas as pd# 获取文件的内容def get_contends(path):with open(path) as file_object:contends =
java博客网站有哪些
Java Specialists： https:www.javaspecialists.eu技术小黑屋：https:droidyue.com专注Android和Java技术分享。优就业吧-百度贴吧：https:tieba.
python在金融方面有哪些好的书知乎
链接：http:pan.baidu.coms1djPqbCXnQrRpW0dgi2MCJg提取码：4591华尔街学堂 python金融实务从入门到精通。最近，越来越多的研究员、基金经理甚至财务会计领域的朋友，向小编咨询：金融人需要学
python变量名的命名规则
Python语言变量命名规则变量名只能包含字母、数字和下划线。变量名可以字母或下划线开头，但不能以数字开头。例如，可将变量命名为message_1，但不能将其命名为1_message。变量名不能包含空格，但可使用下划线来分隔其中的单词。以下
渗透测试之端口扫描
端口扫描:端口对应网络服务及应用端程序服务端程序的漏洞通过端口攻入发现开放的端口更具体的攻击面UDP端口扫描:如果收到ICMP端口不可达,表示端口关闭如果没有收到回包,则证明端口是开放的
有哪些小游戏可以直接用python编写？
ant 蚂蚁2. bagels 百吉饼另外贪吃蛇，吃豆子都是可以的，直接代码就可以玩。Python包括随您的安装一起分发的大量标准库。标准库有一个称为Turtle的模块，这是一种向普通人介绍python编程的流行方法。今天介绍的所有游戏都是
c语言中的scanf 函数的用法
scanf 函数最主要的用法是：scanf("输入控制符", 输入参数)功能：将从键盘输入的字符转化为“输入控制符”所规定格式的数据，然后存入以输入参数的值为地址的变量中。用scanf()函数以%s格式读入的数据不
java程序员的工作职责怎么写
很多对Java程序员感兴趣的朋友，总是在思考一个问题，我能不能成为一名Java程序员，能不能跟做不做是两回事。JAVA程序员广义上是指一群以JAVA为谋生手段的软件开发人员。狭义的说，是指拥有SUN公司JAVA认证的程序员。通常要求程序员精

推荐阅读

热门文章

最新发布

标签列表

R语言-均值填充缺失值

给您推荐相同类型的内容：