如何高效地使用RStudio

Python075

如何高效地使用RStudio,第1张

RStudio Server 是 RStudio 公司打造的一款基于 Web 的开源编辑器,如果你熟悉 RStudio的桌面版本,那么使用RStudio Server对你来说基本上没什么难度。

实际的工程中,我们的服务器大多是基于Linux的,比如常见的 ubuntu、centos

等。这些操作系统有时并不提供图形化界面,这时候RStudio的服务器版本就派上用场了。启动RStudio

Server后,进入在浏览器中进入某一个页面后就可以像桌面版一样使用RStudio编辑器。当R的代码在服务器上出现bug了,线上的hotfix是

在所难免的,这时候必然会用到 RStudio Server 应个急。

这一次,我们将继续利用Docker神器,快速初始化RStudio Server环境的配置,并结合Git实现代码的版本控制。

准备

一个 Ubuntu 服务器

第一步:安装 RStudio Server

首先,我们通过docker 安装一个标准的RStudio Server

docker pull quantumobject/docker-rstudio

docker run -d -p 8787:8787 quantumobject/docker-rstudio

这样在你的电脑的8787端口就可以访问到rstudio的登陆界面了。

第二步:初始化 RStudio 账号

接着,我们需要初始化一个rstudio的账号

docker exec -it container-id /bin/bash

adduser harryzhu # 设置新用户名

passwd harryzhu # 设置该用户的密码

mkdir /home/harryzhu # 初始化工作空间

chmod -R harryzhu /home/harryzhu # 给工作空间赋权

第三步:安装 git

然后,我们进入rstudio的服务器,我们打算引入git版本控制

sudo apt-get install git-core

第四步:解决 ssh 的认证问题

使用 git 的过程可能遇到SSL certificate problem。对于ssh的问题,我们可以选择建立一个ssh认证的key,也可以在git中设置为忽略。

生成一个key:

$ssh-keygen -t rsa

Generating public/private rsa key pair.

Enter file in which to save the key (/root/.ssh/id_rsa):

Created directory '/root/.ssh'.

连续按下回车,跳过密码设置

显示秘钥信息:

sudo cat /root/.ssh/id_rsa.pub

如果没有ssh认证的需求,也可以选择忽略:

git config --global http.sslVerify false

第五步:在 RStudio Server 中配置Git

在最上方的菜单栏中可以选择Project Options。

接着填写配置。

第六步:克隆 Git 项目到本地

Git 功能已经集成在 RStudio-Server 中了,在新建项目时可以选择新建一个Version Control 的 Git 项目。

大功告成!

参考资料

docker-rstudio 手册

张丹老师的 RStudio-Server 配置实战

Rstudio 官方 git 解决方案

刘坤老师的 Git 中文教程

---------------------------------------------------------------------------------------------------------------

概述

本文根据 Rstudio Webinars 的教程资源对Rstudio流的R语言教程做一个汇总,可以看到Rstudio对统计报告的Web化和工程化做了大量贡献。感谢Rstudio的众多工程师在开源的道路上的贡献!

谢溢辉:LaTex/Word的统计报告大逃亡之Rmarkdown生态

教学视频地址

在可交互、可复用的统计报告中,谢溢辉将介绍一众R包,包括 knitr、rmarkdown、htmlwidgets、DT、leaflet以及shiny。

快速标准的论文书写# $something$ 或者 $$something$$ 可以解决数学公式的问题

# 利用 bib 文件和[@something] 可以解决引用的问题

# 同样的,你也可以根据一些机构要求引入标准的模板。

参考谢溢辉的Rmarkdown论文

参考谢溢辉的bib文件

屏蔽源码# ```{r echo=F}屏蔽源代码

# ```{r, fig.width=5, fig.height=4} 设置配图大小

# 脚注

代码段内存共享

利用cache选项复用代码和数据

Sys.sleep(5)

rnorm(1)

输出其他语言代码

利用engine选项选择代码引擎,驱动python、R、scala、Rcpp、bash、perl、node等

x = 'hello, python

world!'

print(x)

print(x.split(' '))

交互式文档

利用yaml配置中的runtime选项

---

author: Harry Zhu

output: html_document

runtime: shiny

---

同理,你也可以选择输出slide、pdf或者word,你甚至可以给html定制一个css皮肤。

在我看来,rmarkdown是一款超越Zeppelin和iPython notebook的产品。

最总要的意义在于,学术工作者和工程师们不仅仅可以摆脱格式对创作的束缚专注于代码和文档,更是随意输出pdf、slide、html、word、latex等多种格式,形成强有力的跨界冲击。

谢溢辉本人有超过10年以上的LaTex使用经验,他的rmarkdown和knitr造福了一代学术工作者,显然LaTex和Word的体系在这种降维攻击下已经摇摇欲坠。

Hadley Wickham:R与大数据共舞

教学视频地址

R是一门为小数据探索和开发设计的语言,但在生产中R和大数据在一起还能发挥作用吗? 我们定义数据量大于单机内存的数据为大数据。让我们对比一下大数据与小数据的生命周期。

一个小数据分析项目的生命周期:

阐明:熟悉数据、模板解决方案

开发:创建有效模型

产品化:自动化与集成

发布:社会化

一个大数据分析项目的生命周期:

切片:抽取部分数据

阐明:熟悉数据、模板解决方案

开发:创建有效模型

扩展:使用到整个数据集

产品化:自动化与集成

发布:社会化

dplyr与数据读取

教学视频地址

PackageDBMSsrc_sqlite()SQLitesrc_mysqlMySQLsrc_postgresPostgreSQLlibrary(bigquery) src_bigquery()Google BigQuery

显示SQLshow_query(clean)

中间缓存

collapse()返回正在处理的结果

# 抽取 1% 的训练数据

random <- clean %>%

mutate(x = random()) %>%

collapse() %>%

filter(x <= 0.01) %>%

select(-x) %>%

collect()

数据存储

copy_to() 根据本地的data frame 在数据库创建一个表

# air为connection名称,query5为data frame,"gains"为表名

copy_to(air, query5, name = "gains")

# 关闭连接

rm(air)

# 垃圾收集器

gc()

Hadley Wickham:ETL

教学视频地址

本节将讨论一个有效的数据分析/数据科学问题框架,包括:

数据读取 readr/httr/DBI

数据清洗 tidyr/jsonlite

数据处理 dplyr/rlist

数据可视化 ggplot2/ggvis

数据建模 broom

broom:快速分析install.packages("broom")

# 查看相关例子

browseVignettes(package="broom")

Hadley Wickham是RStudio的首席科学家,并兼任统计莱斯大学的兼职教授。他将一一介绍他认为你应该知道的各种R包,并概述大数据和R,但主要是解释为什么他相信你不应该担心大数据的问题。

garrettgman:packrat与虚拟化技术

教学视频地址

是否有过这样与人合作开发的经历:在自己机器上运行完美的R代码,复制到另外一台同事的机器上运行就有很多R包需要重新安装,有的R包甚至依赖于不同的版

本?现在,在不使用Docker或Vagrant等全局虚拟化技术的条件下,只需要运用packrat包,就可以保证你的R项目的依赖问题被很好的解决,

一次运行,到处运行。

if(!require(packrat)){install.packages("packrat")}

getOption("repos") # 显示代码镜像源

packrat:: bundle() # 打包当前环境并虚拟化

packrat:: unbundle(bundle="xxx.tar.gz",where=".") # 加载已经打包过的环境

packrat::opts$local.repos("~/R") # 设置本地repos为路径

packrat::install_local("pryr") # 从本地安装

Hadley Wickham:Git与团队协作

教学视频地址

团队协作:利用Git 和 GitHub,你可以很轻松的与人协作,你不再需要用邮件附件来备份文档,或者在Dropbox上为争夺编辑权限而争吵。相反,你可以独立工作,最后只需要合并你们的成果就可以。

版本控制: Git 在我们制造重大错误时都允许我们回滚到之前的任意时间点。我们也可以回顾我们之前所做的一起历史记录,跟踪bug的形成过程。

在之前学习的时候,老师有推荐"export"这个神器可以将图片直接导出至ppt,但是发现3.6及4.0版本的R语言仍然无法使用export。

因此,切换至另外一个叫"eoffice"的package。

安装eoffice

install.packages("eoffice")

报错

ERROR:configuration failedforpackage‘magick’Warningininstall.packages:installation ofpackage‘magick’ had non-zero exit statusERROR:dependency ‘magick’isnot availableforpackage‘eoffice’Warningininstall.packages:installation ofpackage‘eoffice’ had non-zero exit status

查看错误内容是因为没有安装Magick++

Configurationfailed tofindtheMagick++library.Tryinstalling:-deb:libmagick++-dev(Debian,Ubuntu)-rpm:ImageMagick-c++-devel(Fedora,CentOS,RHEL)-csw:imagemagick_dev(Solaris)-brew imagemagick@6(MacOS)

按照提示安装libmagick++-dev

sudo apt-getinstall libmagick++-dev

再次安装effice

install.packages("eoffice")

注:最近发现新版本的devEMF不兼容,如果发现缺少devEMF,并报错:Makeconf:176: recipe for target 'devEMF.o' failed make: *** [devEMF.o] Error 1,需要参见 https://www.jianshu.com/p/fd5857f5a06f 手动安装devEMF旧版本

之后就可以加载

library(eoffice)

保存至ppt可使用topptx

topptx(filename ="mtcars.pptx")

保存至doxc可使用todocx

todocx(filename = "mtcars.docx")

支持多处方式输出图片

p <- ggplot(mtcars, aes(mpg, disp, color = factor(cyl))) + geom_point()topptx(p, filename = "mtcars.pptx"), width = 6, height = 4)

也支持表格从ppt或者word的输出和读取

totable(head(mtcars), filename = "mtcars.pptx")

以及输出多种图片格式

tofigure(p, filename = "mtcars.pdf")

最近遇到一个问题, R语言中画的图怎么导出到PPT可以便于其他同事后续编辑 ?

为解决这个问题,大体上有两种思路:

思路一是将数据按照PPT适宜的格式导出,再用PPT里自带的图表工具,通过编辑数据即可画图,缺点在于已经画好了图还得重新在PPT里画一遍,如果是一些比较复杂的图形,使用PPT未必能快速完成。

思路二是想办法将R的图对象直接导出为PPT可编辑的对象,这样会比较便捷

这篇文章主要讲讲思路二的具体实现方法,总体上是借助{officer}这个包【可直接跳到方法3】。如未安装请先:

install.packages("officer")

library(officer)

方法1(仅能插入图片到PPTX中):

library(ggplot2)

library(tidyverse)

# 用iris数据画个简单的散点图

g = ggplot(iris,

          aes(x = Sepal.Length, y = Sepal.Width)) +

    geom_point(aes(color = Species))

# 这里使用officer包的相关函数将画图形成的ggplot对象赋值给doc

doc <- read_pptx() %>%

      add_slide() %>%

      ph_with(value = g, location = ph_location_fullsize())

# 导出pptx文件

print(doc, target = "iris.pptx")

找到刚刚生成的iris.pptx文件,发现居然只是个图片!看来这个方法只适用于想直接生成图片进PPT文件。

方法2(半可编辑):

借助rvg包

library(rvg)

# 用iris数据画个简单的散点图

g = ggplot(iris,

          aes(x = Sepal.Length, y = Sepal.Width)) +

    geom_point(aes(color = Species))

# 将这个ggplot对象转化成可编辑的对象

editable_graph <- dml(ggobj = g)

# 导出到pptx

doc <- read_pptx() %>%

  add_slide() %>%

  ph_with(value = editable_graph,location = ph_location_fullsize()) %>%

  print(target = "iris2.pptx") # 这里对导出步骤做了简化,本质上和方法1一样

发现生成的图片似乎是可以编辑了,可以选中里面的每一个点、文本、图形,但这种图片充其量也只是把ggplot的图改成了各种形状和文本框的组合,不是PPTX原生的那种图表。

PS:另一个包叫eoffice有同样的作用,作者也说了eoffice就是基于officer包来的。

方法3(可编辑):

借助mschart包,替代ggplot2以生成pptx可解析的图表对象:

library(mschart)

# 画图,指定数据、轴和系列

scatter <-

  ms_scatterchart(

    data = iris, x = "Sepal.Length",

    y = "Sepal.Width", group = "Species"

  )

# 设定图形参数

scatter <- chart_settings(scatter, scatterstyle = "marker")

# 导出

doc <- read_pptx() %>%

      add_slide(layout = "Title and Content", master = "Office Theme") %>%

      ph_with(value = scatter, location = ph_location_fullsize()) %>%

      print(target = "iris3.pptx")

在PPT中生成了一个比较美观的图:

点击右键发现的确可以编辑数据,插入了原生的microsoft图表! 大功告成 !

总结

借助于mschart和officer包即可实现该需求,但是对mschart后续研究发现,这个包目前仅支持折线图、柱形图、面积图和散点图(20210718),丰富度相比于ggplot2还有待提升。

文章地址为:

https://www.stat.berkeley.edu/~terry/zarray/Html/normspie.html

https://www.ncbi.nlm.nih.gov/pubmed/11842121

芯片试验的系统误差很多因素都可以造成,包括不同荧光(绿色的Cy3和红色的Cy5)标记的效率、实验组与对照组用于杂交核酸总量的差异、扫描参数造成的差。传统的做法是使用Global normalization的方法是引入一个校正常数k,使log-ratios(M)的中位数为0,但是由于这种方法没有考虑到不同芯片荧光密度和探针的不同位置(即不同点样针点样)所引起的误差(print-tip effects 点样针效应)。该文提出了对于芯片实验中荧光密度依赖和位置依赖误差的标准化方法。

芯片的标准化目的为平衡同一芯片上的绿色(Cy3)和红色(Cy5)荧光强度,并且对不同芯片的荧光值进行处理,使不同芯片之间也具有可比性。【包括within slide和multiple slide的标准化】。不同荧光造成的偏差可以由以下实验证明:同一mRNA样本用不同荧光标记,并且与同一芯片上的探针杂交,通常绿色的信号强度比红色的信号强度高,造成该偏差的原因可能是由于荧光素的物理性质包括热、光敏感度以及它们的半衰期,荧光标记的效率,探针的制备过程,扫描参数的设定有关。仅仅用Global标准化方法不能有效消除这些误差,并且重复组数据之间可能有不同的spread,需要进行scale校正以防止一个较极端的实验的结果对其他重复组的结果有太大的干扰。

标准化包括(1)同一芯片内荧光强度的标准化(2)多个不同芯片之间的标准化(3)dye-swap(荧光交换)芯片的标准化【dye-swap实验为配对的芯片,如一个芯片中实验组用绿色,对照组用红色荧光标记,而另一个芯片中实验组用红色,对照组用绿色标记】

前提条件:(1)不同组别之间仅仅有少量基因表达发生显著变化(2)上调和下调的基因数目几乎相同,即对称性

一般实验中,对照组和实验组仅仅有少量的基因差异表达,因此大多可以适用

一般认为管家基因在很多条件下表达都是恒定的,如β actin,通常很难找到在任何情况下表达量都恒定的基因,但是可以找到在某个实验条件下的“temporary” 管家基因。

使用管家基因的限制是它们往往表达量比较高,对于全部的基因来说不具有代表性。

合成不存在于实验组和对照组中的核酸序列探针,并在实验组和对照组mRNA中加入等量该核酸,由该特殊探针产生的荧光值进行标准化。

标准化的目的是为了是不同组别之间的数据具有可比性,如前所述,一般实验中,对照组和实验组仅仅有少量的基因差异表达,因此大多数基因的log-ratio【即log(组1)-log(组2)】值都应该在零左右,并且正负值大致相当。

MAplot就是衡量标准化是否成功的一个方法,以M为纵坐标

A为横坐标

因此M代表不同组别之间的基因的表达差异,A代表基因表达的平均水平(即芯片的荧光信号强度),当差异值是随着表达水平而变化时,MAplot可以很好的鉴别出这种系统偏差,如下图:可以很清楚地看出M不是以y=0这条线为中心的(中位数不是0),说明存在系统偏差,需要进行校正。

c为标准化常数,引入c后时M的中位数为0,即c=median(M)

R语言实现如下:

由于不同的表达量(A值)对应的M偏离0的距离不同,因此这次使用c(A),即c是A的一个函数,而不再是常数来进行标准化。

R语言实现如下:

如果在做完以上标准化之后,各样本的M分布大致相当时,可以不用做scale缩放,以免引入更多的混杂因素

可以看出这两个样本表达量的spread(变异程度)不一致,需要标准化为相同spread,直接使用标准差进行缩放 受极端值影响 较大,该文提出使用mad(Median_absolute_deviation中位数绝对偏差)的方法进行缩放,可以达到较好的效果

原理为,不同样本分别 除以 一个缩放因子,使其方差由原来的αi^{2} * σ 2都变为σ 2,使各样本的方差均为 σ^2 即都相等

i为样本编号,共由I个样本,MAD为 中位数绝对偏差 ,如果没有极端值的影响MAD可以用标准差替代

R语言实现: