转自医学方
2019-07-4 Alexander
流行病学或者医学论文中,对研究对象基本情况的描述通常以表格的形式进行,并且放在结果部分的开头,即Table 1,主要内容是研究对象一般情况和研究变量或协变量的分组展示。
前几天文章修回过程中,花了两天时间分析数据,修改文章,其中有近1天的时间都在手动录入数据(从R studio里把分析结果整理到Excel或者word),这样除了花费时间外,还非常容易出错。之前一直想找时间通过R markdown把制作表格的过程程序化,可是效果并不理想。
这次痛定思痛,先从table 1开始,发现了几个不错的方法。其中一种个人觉得可读性和可编辑性都比较强,于是学习了一下,作为一个非常实用的工具分享给大家。
这里主要参考一篇博客Fast-track publishing using knitr: table mania,对细节进行了加工和注释。
1 数据的准备
数据主要来自于boot包的melanoma。加载后,看下数据的基本结构。
接下来对数据进行简单的整理,为后续分析做准备;
将分类变量定义为因子型并设置标签(这里建议设置一个新的变量,仅用于table 1的制作,不影响后续的分析);
2 安装和加载R包 Gmisc
后面两个包是加载“Gmisc”时要求加载的。
3 自定义函数、制作表格
根据已有函数自定义函数,并制作表格。定义一个函数,输入数据集的变量并得到该变量的统计结果:
函数定义完成后,建立一个空的列表,以储存每个变量的分析结果,并进行分析,将结果储存在列表中:
将所有结果merge到一个矩阵中,并建立rgroup(table1第一列的变量名) 和 n.rgroup(table 1第一列每个变量的行数):
结果如下:
当然,有些情况下,需要多加一个分组标题栏(column spanner),该怎么加呢?
如下:
结果如下:
4 导出结果
在R studio viewer窗口点击白色按钮,即可在浏览器中打开,然后复制粘贴到word可以进一步加工修饰。
是不是很刺激呢。
应该还有其他的导出方法,不过这个已经很方便了。
拓展功能选
⒈ 二分类变量只显示一个(比如男性和女性)。只要在getDescriptionStatsBy的"show_all_values"参数设置为FALSE即可;
⒉ 显示缺失值。getDescriptionStatsBy的"useNA"参数设置为"ifany",表示如果有缺失值就显示缺失值情况;如设置为“no”,表示始终不显示缺失值情况;“always”则表示无论是否有缺失值都显示缺失值情况;
⒊ Total一列是可以去掉的,getDescriptionStatsBy的"add_total_col"参数设置为FALSE即可。
不足之处
⒈ 差异性检验是采用非参的方法,虽然没有错,但是一般符合参数检验条件的数据还是要使用参数检验的方法,这里可以自行检验后再修改P-value;
⒉ Mean (SD)的展示形式有个括号感觉有点别扭,还不知道怎么去掉,有方法的小伙伴欢迎分享交流。
另外有一些其他的制作table 1的R包,比如table 1(R包的名字)包,tableone包,还有其他生成表格的R包(plyr等),个人浏览下来感觉这个最容易理解和掌握,其他包的功能有兴趣的可以再自行挖掘对比。
原文链接: https://mp.weixin.qq.com/s?src=11&timestamp=1562230826&ver=1707&signature=Og8lYPNfFi99QvnQb8OAtkTIo75N9G0JHqvpXxLS5aRpqRcnlgtxXJAMtfgxB8kAK8vinKSxdO6A1qxNy-4k8AyE9wUMYKSarBLDydWO-vazmCNPJIAa5GfaBiFIghaO&new=1
1、分析数据表:通过浏览“入库明细”表,我们可能看到入库明细表中,作为提取记录的条件零件号在A列。需要提取的记录,入库日期在H列、入库单号在O列、最后生产批号在L列、入库前库存数在Q列。为DC000496ZL的记录有5条(截图中的4条是指上面有4条)。
2、列出提取条件及项目:在sheet1中,将A列放置提取条件(即零件号)。在B、C、D、E列分别写上提取项目名称:入库日期、入库单号、最后生产批号、入库前库存数。
3、写公式:在最后入库日期项目下B2中输入公式:=MAX((入库明细!$A$2:$A$26=$A2)*(入库明细!$H$2:$H$26)),这是一个数组公式,请用三键确认(ctrl+shift+enter)。
搜索
免费自学excel教程全套
excel另一列数据提取
自动抓取数据excel表
表格技巧大全
excel100个常用技巧
新手怎么做财务报表
R语言Excel文件Microsoft Excel是使用最广泛的电子表格程序,它是以.xls或.xlsx格式存储数据。 R可以使用某些excel特定的包直接读取这些文件的内容。一些常用的软件包有 - XLConnect,xlsx,gdata等。在这个篇文章中,我们将使用xlsx软件包。 R也可以使用这个包写入excel文件。
安装xlsx软件包
可以在R控制台中使用以下命令来安装xlsx软件包。它可能会要求安装一些这个包所依赖的附加包。按照相同的命令与所需的包名来安装附加的包。
install.packages("xlsx")
R
验证并加载“xlsx”软件包
使用以下命令来验证和加载xlsx包。参考以下代码 -
# Verify the package is installed.
any(grepl("xlsx",installed.packages()))
# Load the library into R workspace.
library("xlsx")
R
当脚本运行时,得到以下输出 -
[1] TRUE
Loading required package: rJava
Loading required package: methods
Loading required package: xlsxjars
Shell
注: 如果第一个输出结果为:FALSE,请 install.packages("xlsx") 语句重新加载安装。
准备xlsx文件用作为输入
打开Microsoft excel。将以下数据复制并粘贴到名为sheet1的工作表中。
idname salarystart_datedept
1Rick 623.31/1/2012IT
2Dan 515.2 9/23/2013 Operations
3Michelle 61111/15/2014IT
4Ryan 7295/11/2014HR
5Gary 843.253/27/2015Finance
6Nina 578 5/21/2013IT
7Simon 632.87/30/2013Operations
8Guru 722.56/17/2014Finance
Txt
如下所示 -
如下所示 -
还将以下数据复制并粘贴到另一个工作表,并将此工作表重命名为city。
name city
Rick Seattle
Dan Tampa
Michelle Chicago
Ryan Seattle
Gary Houston
Nina Boston
Simon Mumbai
Guru Dallas
如下所示 -
将Excel文件另存为“input.xlsx”,应该将此文件保存在R工作区的当前工作目录中。
读取Excel文件
使用read.xlsx()函数读取input.xlsx,如下所示,结果作为数据帧存储在R环境中。
# Read the first worksheet in the file input.xlsx.
data <- read.xlsx("input.xlsx", sheetIndex = 1)
print(data)
R
当我们执行上述代码时,会产生以下结果 -
id name salary start_date dept
1 1 Rick 623.30 2012-01-01 IT
2 2 Dan 515.20 2013-09-23 Operations
3 3 Michelle 611.00 2014-11-15 IT
4 4 Ryan 729.00 2014-05-11 HR
5 NA Gary 843.25 2015-03-27Finance
6 6 Nina 578.00 2013-05-21 IT
7 7Simon 632.80 2013-07-30 Operations
8 8 Guru 722.50 2014-06-17Finance