r语言怎么给多个表格加权重排序

2023-02-21 02:54:01Python06

r语言怎么给多个表格加权重排序,第1张

r语言怎么给多个表格加权重排序步骤如下。

1、函数是对一维度数组、向量x进行排序。若x为数值，则按照从小到大的原则进行排序。

2、数据分为确定值与缺失值两种。

3、最基本的排序，小数在前大数在后，相同元素先者在前后者在后。

R语言中，和排序相关的常用函数有： order() ， sort() ， rank() ，一般是对向量进行操作，也可以对数据框的列进行操作。

1. order(..., decreasing = FALSE)

“...” 中可以是一个向量（数值型，字符型，逻辑型， 因子型 均可），也可以是多个向量（ 长度必须相同 ）

它返回的是排列后（默认是升序）的元素在该向量中所处的位置，即索引，所以返回的不是原来向量的那些数值，而是排序后那些数值所对应的位置。它在常在数据框中运用，可以根据某一列和某几列来调整数据框。

1.1 单个向量

1.2 多个向量（数据框的多列）

上面最左边的一列数值（不是var1这一列）就是 order(df$var1) 生成的，列var1的顺序就是order后的，注意和前面df 的列var1进行比较，还有一点要牢记的就是这种在数据框里的调整，是 整行变动(都按列var1来) 。故而本质上，对于数据框而言， order函数出来的是原始数据框中的行号，行号顺序一变，意味着行号代表的整行跟着变 。

接着再按列var2排序（注意是在列var1已经排好的基础上再按列var2重新排序，即此时列var1里的 非重复值的行顺序不会再变了，只有列var1里有重复值（数值相同的）的行才会变换 ，而且是按照列var2来变换，。如还要按其它列再排，以此类推）：

最后再按列var3排序，此时只有列var2中 有重复值的行 （当然这时var1肯定也是重复的）才会变换------这里是含有9的那两行，并且是按照这些重复值对应到列var3的那些行的数值（数值1和2）来变的

总结提升，order()函数中，如果第一个向量（或者说是数据框里你想要根据它来调整的那一列）里没有重复值，那么按照后面的所有向量（不管有多少个）的重排都不会进行（或者说重排的结果不会变），order(vec1,vec2,vec3,...) 返回的行号及其顺序和 order(vec1) 的是一样。

同理，也可以处理对应的行（比如矩阵或是数据框的行）

1.3 factor（因子型向量）

2. sort(x, decreasing = FALSE)

x 只能是一个向量（数值型，字符型，逻辑型， 因子型 均可）

返回的是排序后（默认是升序）的那个数值向量（ 还是那些数值，只不过是排序过了的 ）

3. rank(x, na.last = TRUE)

求秩的函数，x 只能是 一个**向量（数值型，字符型，逻辑型）， 该向量一般不会有重复值 ，返回的是该向量中对应元素的“排名”，即元素顺序它不会改变，只是告诉你每个元素在整个向量中的名次（如果要排序（默认是升序）的话）。

如果向量有重复值，出现的结果会有些不太好处理

匹配两个向量，返回的是第一个向量 x中的各个元素在第二个向量 y中所匹配的元素的位置值（索引，下标值），即 返回的是第二个向量的下标值组成的向量 。

注意事项：

1. 返回的下标值向量的长度与第一个向量相等，即 length(x) == length(match(x,y)) 为 TRUE。

2. 第一个向量可以是只有一个元素的向量。

3. 两个向量的长度不一定要相等。

4. 返回的是 x中每个元素在y中的位置，可用来提取y中的元素，没有匹配上的会返回 NA。

拓展用法：

y [match(x, y)] ： x中和y 相同的元素都是哪些，前提是x中的元素在y中都有（即x是y的子集），否则会返回 NA。（ 最好是用x[ x %in y] ）

y[-match(x, y)] ：找出 y里面有 x里面没有的数值，前提是x中的元素在y中都有（即x是y的子集），否则会报错。

当两个向量类型不一样时, match函数会进行类型转换，然后再匹配。

x %in% y

判断x中的元素是否都在y中，返回的是个长度和 x 一样的逻辑值向量，存在的话返回TRUE，否则返回FALSE。

sum(x %in% y) ：统计 x 中有多少个元素在y中，或者说 x 和 y 有几个相同元素

x[x %in% y] ：x中和y 相同的元素都是哪些

转自医学方

2019-07-4 Alexander

流行病学或者医学论文中，对研究对象基本情况的描述通常以表格的形式进行，并且放在结果部分的开头，即Table 1，主要内容是研究对象一般情况和研究变量或协变量的分组展示。

前几天文章修回过程中，花了两天时间分析数据，修改文章，其中有近1天的时间都在手动录入数据（从R studio里把分析结果整理到Excel或者word），这样除了花费时间外，还非常容易出错。之前一直想找时间通过R markdown把制作表格的过程程序化，可是效果并不理想。

这次痛定思痛，先从table 1开始，发现了几个不错的方法。其中一种个人觉得可读性和可编辑性都比较强，于是学习了一下，作为一个非常实用的工具分享给大家。

这里主要参考一篇博客Fast-track publishing using knitr: table mania，对细节进行了加工和注释。

1 数据的准备

数据主要来自于boot包的melanoma。加载后，看下数据的基本结构。

接下来对数据进行简单的整理，为后续分析做准备；

将分类变量定义为因子型并设置标签（这里建议设置一个新的变量，仅用于table 1的制作，不影响后续的分析）；

2 安装和加载R包 Gmisc

后面两个包是加载“Gmisc”时要求加载的。

3 自定义函数、制作表格

根据已有函数自定义函数，并制作表格。定义一个函数，输入数据集的变量并得到该变量的统计结果：

函数定义完成后，建立一个空的列表，以储存每个变量的分析结果，并进行分析，将结果储存在列表中：

将所有结果merge到一个矩阵中，并建立rgroup（table1第一列的变量名）和 n.rgroup（table 1第一列每个变量的行数）：

结果如下：

当然，有些情况下，需要多加一个分组标题栏（column spanner），该怎么加呢？

如下：

结果如下：

4 导出结果

在R studio viewer窗口点击白色按钮，即可在浏览器中打开，然后复制粘贴到word可以进一步加工修饰。

是不是很刺激呢。

应该还有其他的导出方法，不过这个已经很方便了。

拓展功能选

⒈ 二分类变量只显示一个（比如男性和女性）。只要在getDescriptionStatsBy的"show_all_values"参数设置为FALSE即可；

⒉ 显示缺失值。getDescriptionStatsBy的"useNA"参数设置为"ifany"，表示如果有缺失值就显示缺失值情况；如设置为“no”，表示始终不显示缺失值情况；“always”则表示无论是否有缺失值都显示缺失值情况；

⒊ Total一列是可以去掉的，getDescriptionStatsBy的"add_total_col"参数设置为FALSE即可。

不足之处

⒈ 差异性检验是采用非参的方法，虽然没有错，但是一般符合参数检验条件的数据还是要使用参数检验的方法，这里可以自行检验后再修改P-value；

⒉ Mean (SD)的展示形式有个括号感觉有点别扭，还不知道怎么去掉，有方法的小伙伴欢迎分享交流。

另外有一些其他的制作table 1的R包，比如table 1（R包的名字）包，tableone包，还有其他生成表格的R包（plyr等），个人浏览下来感觉这个最容易理解和掌握，其他包的功能有兴趣的可以再自行挖掘对比。

原文链接： https://mp.weixin.qq.com/s?src=11&timestamp=1562230826&ver=1707&signature=Og8lYPNfFi99QvnQb8OAtkTIo75N9G0JHqvpXxLS5aRpqRcnlgtxXJAMtfgxB8kAK8vinKSxdO6A1qxNy-4k8AyE9wUMYKSarBLDydWO-vazmCNPJIAa5GfaBiFIghaO&new=1

向量的是元素数值数据

# 上一篇：C语言的基本格式是什么？

# 下一篇：怎样重装电脑系统xp