如何高效地使用RStudio

Python014

如何高效地使用RStudio,第1张

RStudio Server 是 RStudio 公司打造的一款基于 Web 的开源编辑器,如果你熟悉 RStudio的桌面版本,那么使用RStudio Server对你来说基本上没什么难度。

实际的工程中,我们的服务器大多是基于Linux的,比如常见的 ubuntu、centos

等。这些操作系统有时并不提供图形化界面,这时候RStudio的服务器版本就派上用场了。启动RStudio

Server后,进入在浏览器中进入某一个页面后就可以像桌面版一样使用RStudio编辑器。当R的代码在服务器上出现bug了,线上的hotfix是

在所难免的,这时候必然会用到 RStudio Server 应个急。

这一次,我们将继续利用Docker神器,快速初始化RStudio Server环境的配置,并结合Git实现代码的版本控制。

准备

一个 Ubuntu 服务器

第一步:安装 RStudio Server

首先,我们通过docker 安装一个标准的RStudio Server

docker pull quantumobject/docker-rstudio

docker run -d -p 8787:8787 quantumobject/docker-rstudio

这样在你的电脑的8787端口就可以访问到rstudio的登陆界面了。

第二步:初始化 RStudio 账号

接着,我们需要初始化一个rstudio的账号

docker exec -it container-id /bin/bash

adduser harryzhu # 设置新用户名

passwd harryzhu # 设置该用户的密码

mkdir /home/harryzhu # 初始化工作空间

chmod -R harryzhu /home/harryzhu # 给工作空间赋权

第三步:安装 git

然后,我们进入rstudio的服务器,我们打算引入git版本控制

sudo apt-get install git-core

第四步:解决 ssh 的认证问题

使用 git 的过程可能遇到SSL certificate problem。对于ssh的问题,我们可以选择建立一个ssh认证的key,也可以在git中设置为忽略。

生成一个key:

$ssh-keygen -t rsa

Generating public/private rsa key pair.

Enter file in which to save the key (/root/.ssh/id_rsa):

Created directory '/root/.ssh'.

连续按下回车,跳过密码设置

显示秘钥信息:

sudo cat /root/.ssh/id_rsa.pub

如果没有ssh认证的需求,也可以选择忽略:

git config --global http.sslVerify false

第五步:在 RStudio Server 中配置Git

在最上方的菜单栏中可以选择Project Options。

接着填写配置。

第六步:克隆 Git 项目到本地

Git 功能已经集成在 RStudio-Server 中了,在新建项目时可以选择新建一个Version Control 的 Git 项目。

大功告成!

参考资料

docker-rstudio 手册

张丹老师的 RStudio-Server 配置实战

Rstudio 官方 git 解决方案

刘坤老师的 Git 中文教程

---------------------------------------------------------------------------------------------------------------

概述

本文根据 Rstudio Webinars 的教程资源对Rstudio流的R语言教程做一个汇总,可以看到Rstudio对统计报告的Web化和工程化做了大量贡献。感谢Rstudio的众多工程师在开源的道路上的贡献!

谢溢辉:LaTex/Word的统计报告大逃亡之Rmarkdown生态

教学视频地址

在可交互、可复用的统计报告中,谢溢辉将介绍一众R包,包括 knitr、rmarkdown、htmlwidgets、DT、leaflet以及shiny。

快速标准的论文书写# $something$ 或者 $$something$$ 可以解决数学公式的问题

# 利用 bib 文件和[@something] 可以解决引用的问题

# 同样的,你也可以根据一些机构要求引入标准的模板。

参考谢溢辉的Rmarkdown论文

参考谢溢辉的bib文件

屏蔽源码# ```{r echo=F}屏蔽源代码

# ```{r, fig.width=5, fig.height=4} 设置配图大小

# 脚注

代码段内存共享

利用cache选项复用代码和数据

Sys.sleep(5)

rnorm(1)

输出其他语言代码

利用engine选项选择代码引擎,驱动python、R、scala、Rcpp、bash、perl、node等

x = 'hello, python

world!'

print(x)

print(x.split(' '))

交互式文档

利用yaml配置中的runtime选项

---

author: Harry Zhu

output: html_document

runtime: shiny

---

同理,你也可以选择输出slide、pdf或者word,你甚至可以给html定制一个css皮肤。

在我看来,rmarkdown是一款超越Zeppelin和iPython notebook的产品。

最总要的意义在于,学术工作者和工程师们不仅仅可以摆脱格式对创作的束缚专注于代码和文档,更是随意输出pdf、slide、html、word、latex等多种格式,形成强有力的跨界冲击。

谢溢辉本人有超过10年以上的LaTex使用经验,他的rmarkdown和knitr造福了一代学术工作者,显然LaTex和Word的体系在这种降维攻击下已经摇摇欲坠。

Hadley Wickham:R与大数据共舞

教学视频地址

R是一门为小数据探索和开发设计的语言,但在生产中R和大数据在一起还能发挥作用吗? 我们定义数据量大于单机内存的数据为大数据。让我们对比一下大数据与小数据的生命周期。

一个小数据分析项目的生命周期:

阐明:熟悉数据、模板解决方案

开发:创建有效模型

产品化:自动化与集成

发布:社会化

一个大数据分析项目的生命周期:

切片:抽取部分数据

阐明:熟悉数据、模板解决方案

开发:创建有效模型

扩展:使用到整个数据集

产品化:自动化与集成

发布:社会化

dplyr与数据读取

教学视频地址

PackageDBMSsrc_sqlite()SQLitesrc_mysqlMySQLsrc_postgresPostgreSQLlibrary(bigquery) src_bigquery()Google BigQuery

显示SQLshow_query(clean)

中间缓存

collapse()返回正在处理的结果

# 抽取 1% 的训练数据

random <- clean %>%

mutate(x = random()) %>%

collapse() %>%

filter(x <= 0.01) %>%

select(-x) %>%

collect()

数据存储

copy_to() 根据本地的data frame 在数据库创建一个表

# air为connection名称,query5为data frame,"gains"为表名

copy_to(air, query5, name = "gains")

# 关闭连接

rm(air)

# 垃圾收集器

gc()

Hadley Wickham:ETL

教学视频地址

本节将讨论一个有效的数据分析/数据科学问题框架,包括:

数据读取 readr/httr/DBI

数据清洗 tidyr/jsonlite

数据处理 dplyr/rlist

数据可视化 ggplot2/ggvis

数据建模 broom

broom:快速分析install.packages("broom")

# 查看相关例子

browseVignettes(package="broom")

Hadley Wickham是RStudio的首席科学家,并兼任统计莱斯大学的兼职教授。他将一一介绍他认为你应该知道的各种R包,并概述大数据和R,但主要是解释为什么他相信你不应该担心大数据的问题。

garrettgman:packrat与虚拟化技术

教学视频地址

是否有过这样与人合作开发的经历:在自己机器上运行完美的R代码,复制到另外一台同事的机器上运行就有很多R包需要重新安装,有的R包甚至依赖于不同的版

本?现在,在不使用Docker或Vagrant等全局虚拟化技术的条件下,只需要运用packrat包,就可以保证你的R项目的依赖问题被很好的解决,

一次运行,到处运行。

if(!require(packrat)){install.packages("packrat")}

getOption("repos") # 显示代码镜像源

packrat:: bundle() # 打包当前环境并虚拟化

packrat:: unbundle(bundle="xxx.tar.gz",where=".") # 加载已经打包过的环境

packrat::opts$local.repos("~/R") # 设置本地repos为路径

packrat::install_local("pryr") # 从本地安装

Hadley Wickham:Git与团队协作

教学视频地址

团队协作:利用Git 和 GitHub,你可以很轻松的与人协作,你不再需要用邮件附件来备份文档,或者在Dropbox上为争夺编辑权限而争吵。相反,你可以独立工作,最后只需要合并你们的成果就可以。

版本控制: Git 在我们制造重大错误时都允许我们回滚到之前的任意时间点。我们也可以回顾我们之前所做的一起历史记录,跟踪bug的形成过程。

我们在安装某些R包的时候,可能有下面这些情况

导致这个状态的原因有:

一般来说,解决这个问题主要有两种方式:

第一就是看报错信息,缺少哪一个包的依赖,就安装哪一个包即可(也可以手动安装);如果是包之间产生冲突(比方说命名空间冲突),那么就remove掉这个包就可以了

第二个是比较懒的方法,即在安装包的时候,加 dependencies=TRUE, INSTALL_opts = c('--no-lock')

即交代清楚依赖关系,并返回无法锁定目录

或者从本地安装:

当然,还有的情况需要换几个repos才能安装成功

这里推荐一个常用的repos

或者使用pak来自动安装依赖包:

安装pka

安装包:

参考: https://zhidao.baidu.com/question/1576529847462184940.html

https://blog.csdn.net/tandelin/article/details/87719623

https://stackoverflow.com/questions/14382209/r-install-packages-returns-failed-to-create-lock-directory

https://mp.weixin.qq.com/s/iAO1emE-DJ07V8GeNFmr4Q

https://www.jianshu.com/p/6136794d65ab?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=qq

也是自己找来的,原代码有少许错误,本人都已更正了,调试运行都通过了的。

对于初学者,尤其是还没有编程经验的非常有用的一个文件

遗传算法实例

% 下面举例说明遗传算法 %

% 求下列函数的最大值 %

% f(x)=10*sin(5x)+7*cos(4x) x∈[0,10] %

% 将 x 的值用一个10位的二值形式表示为二值问题,一个10位的二值数提供的分辨率是每为 (10-0)/(2^10-1)≈0.01 。 %

% 将变量域 [0,10] 离散化为二值域 [0,1023], x=0+10*b/1023, 其中 b 是 [0,1023] 中的一个二值数。 %

% %

%--------------------------------------------------------------------------------------------------------------%

%--------------------------------------------------------------------------------------------------------------%

% 编程

%-----------------------------------------------

% 2.1初始化(编码)

% initpop.m函数的功能是实现群体的初始化,popsize表示群体的大小,chromlength表示染色体的长度(二值数的长度),

% 长度大小取决于变量的二进制编码的长度(在本例中取10位)。

%遗传算法子程序

%Name: initpop.m

%初始化

function pop=initpop(popsize,chromlength)

pop=round(rand(popsize,chromlength))% rand随机产生每个单元为 {0,1} 行数为popsize,列数为chromlength的矩阵,

% roud对矩阵的每个单元进行圆整。这样产生的初始种群。

% 2.2 计算目标函数值

% 2.2.1 将二进制数转化为十进制数(1)

%遗传算法子程序

%Name: decodebinary.m

%产生 [2^n 2^(n-1) ... 1] 的行向量,然后求和,将二进制转化为十进制

function pop2=decodebinary(pop)

[px,py]=size(pop)%求pop行和列数

for i=1:py

pop1(:,i)=2.^(py-i).*pop(:,i)

end

pop2=sum(pop1,2)%求pop1的每行之和

% 2.2.2 将二进制编码转化为十进制数(2)

% decodechrom.m函数的功能是将染色体(或二进制编码)转换为十进制,参数spoint表示待解码的二进制串的起始位置

% (对于多个变量而言,如有两个变量,采用20为表示,每个变量10为,则第一个变量从1开始,另一个变量从11开始。本例为1),

% 参数1ength表示所截取的长度(本例为10)。

%遗传算法子程序

%Name: decodechrom.m

%将二进制编码转换成十进制

function pop2=decodechrom(pop,spoint,length)

pop1=pop(:,spoint:spoint+length-1)

pop2=decodebinary(pop1)

% 2.2.3 计算目标函数值

% calobjvalue.m函数的功能是实现目标函数的计算,其公式采用本文示例仿真,可根据不同优化问题予以修改。

%遗传算法子程序

%Name: calobjvalue.m

%实现目标函数的计算

function [objvalue]=calobjvalue(pop)

temp1=decodechrom(pop,1,10)%将pop每行转化成十进制数

x=temp1*10/1023%将二值域 中的数转化为变量域 的数

objvalue=10*sin(5*x)+7*cos(4*x)%计算目标函数值

% 2.3 计算个体的适应值

%遗传算法子程序

%Name:calfitvalue.m

%计算个体的适应值

function fitvalue=calfitvalue(objvalue)

global Cmin

Cmin=0

[px,py]=size(objvalue)

for i=1:px

if objvalue(i)+Cmin>0

temp=Cmin+objvalue(i)

else

temp=0.0

end

fitvalue(i)=temp

end

fitvalue=fitvalue'

% 2.4 选择复制

% 选择或复制操作是决定哪些个体可以进入下一代。程序中采用赌轮盘选择法选择,这种方法较易实现。

% 根据方程 pi=fi/∑fi=fi/fsum ,选择步骤:

% 1) 在第 t 代,由(1)式计算 fsum 和 pi

% 2) 产生 {0,1} 的随机数 rand( .),求 s=rand( .)*fsum

% 3) 求 ∑fi≥s 中最小的 k ,则第 k 个个体被选中

% 4) 进行 N 次2)、3)操作,得到 N 个个体,成为第 t=t+1 代种群

%遗传算法子程序

%Name: selection.m

%选择复制

function [newpop]=selection(pop,fitvalue)

totalfit=sum(fitvalue)%求适应值之和

fitvalue=fitvalue/totalfit%单个个体被选择的概率

fitvalue=cumsum(fitvalue)%如 fitvalue=[1 2 3 4],则 cumsum(fitvalue)=[1 3 6 10]

[px,py]=size(pop)

ms=sort(rand(px,1))%从小到大排列

fitin=1

newin=1

while newin<=px

if(ms(newin))<fitvalue(fitin)

newpop(newin)=pop(fitin)

newin=newin+1

else

fitin=fitin+1

end

end

% 2.5 交叉

% 交叉(crossover),群体中的每个个体之间都以一定的概率 pc 交叉,即两个个体从各自字符串的某一位置

% (一般是随机确定)开始互相交换,这类似生物进化过程中的基因分裂与重组。例如,假设2个父代个体x1,x2为:

% x1=0100110

% x2=1010001

% 从每个个体的第3位开始交叉,交又后得到2个新的子代个体y1,y2分别为:

% y1=0100001

% y2=1010110

% 这样2个子代个体就分别具有了2个父代个体的某些特征。利用交又我们有可能由父代个体在子代组合成具有更高适合度的个体。

% 事实上交又是遗传算法区别于其它传统优化方法的主要特点之一。

%遗传算法子程序

%Name: crossover.m

%交叉

function [newpop]=crossover(pop,pc)

[px,py]=size(pop)

newpop=ones(size(pop))

for i=1:2:px-1

if(rand<pc)

cpoint=round(rand*py)

newpop(i,:)=[pop(i,1:cpoint),pop(i+1,cpoint+1:py)]

newpop(i+1,:)=[pop(i+1,1:cpoint),pop(i,cpoint+1:py)]

else

newpop(i,:)=pop(i)

newpop(i+1,:)=pop(i+1)

end

end

% 2.6 变异

% 变异(mutation),基因的突变普遍存在于生物的进化过程中。变异是指父代中的每个个体的每一位都以概率 pm 翻转,即由“1”变为“0”,

% 或由“0”变为“1”。遗传算法的变异特性可以使求解过程随机地搜索到解可能存在的整个空间,因此可以在一定程度上求得全局最优解。

%遗传算法子程序

%Name: mutation.m

%变异

function [newpop]=mutation(pop,pm)

[px,py]=size(pop)

newpop=ones(size(pop))

for i=1:px

if(rand<pm)

mpoint=round(rand*py)

if mpoint<=0

mpoint=1

end

newpop(i)=pop(i)

if any(newpop(i,mpoint))==0

newpop(i,mpoint)=1

else

newpop(i,mpoint)=0

end

else

newpop(i)=pop(i)

end

end

% 2.7 求出群体中最大得适应值及其个体

%遗传算法子程序

%Name: best.m

%求出群体中适应值最大的值

function [bestindividual,bestfit]=best(pop,fitvalue)

[px,py]=size(pop)

bestindividual=pop(1,:)

bestfit=fitvalue(1)

for i=2:px

if fitvalue(i)>bestfit

bestindividual=pop(i,:)

bestfit=fitvalue(i)

end

end

% 2.8 主程序

%遗传算法主程序

%Name:genmain05.m

clear

clf

popsize=20%群体大小

chromlength=10%字符串长度(个体长度)

pc=0.6%交叉概率

pm=0.001%变异概率

pop=initpop(popsize,chromlength)%随机产生初始群体

for i=1:20 %20为迭代次数

[objvalue]=calobjvalue(pop)%计算目标函数

fitvalue=calfitvalue(objvalue)%计算群体中每个个体的适应度

[newpop]=selection(pop,fitvalue)%复制

[newpop]=crossover(pop,pc)%交叉

[newpop]=mutation(pop,pc)%变异

[bestindividual,bestfit]=best(pop,fitvalue)%求出群体中适应值最大的个体及其适应值

y(i)=max(bestfit)

n(i)=i

pop5=bestindividual

x(i)=decodechrom(pop5,1,chromlength)*10/1023

pop=newpop

end

fplot('10*sin(5*x)+7*cos(4*x)',[0 10])

hold on

plot(x,y,'r*')

hold off

[z index]=max(y)%计算最大值及其位置

x5=x(index)%计算最大值对应的x值

y=z

【问题】求f(x)=x 10*sin(5x) 7*cos(4x)的最大值,其中0<=x<=9

【分析】选择二进制编码,种群中的个体数目为10,二进制编码长度为20,交叉概率为0.95,变异概率为0.08

【程序清单】

%编写目标函数

function[sol,eval]=fitness(sol,options)

x=sol(1)

eval=x 10*sin(5*x) 7*cos(4*x)

%把上述函数存储为fitness.m文件并放在工作目录下

initPop=initializega(10,[0 9],'fitness')%生成初始种群,大小为10

[x endPop,bPop,trace]=ga([0 9],'fitness',[],initPop,[1e-6 1 1],'maxGenTerm',25,'normGeomSelect',...

[0.08],['arithXover'],[2],'nonUnifMutation',[2 25 3]) %25次遗传迭代

运算借过为:x =

7.8562 24.8553(当x为7.8562时,f(x)取最大值24.8553)

注:遗传算法一般用来取得近似最优解,而不是最优解。

遗传算法实例2

【问题】在-5<=Xi<=5,i=1,2区间内,求解

f(x1,x2)=-20*exp(-0.2*sqrt(0.5*(x1.^2 x2.^2)))-exp(0.5*(cos(2*pi*x1) cos(2*pi*x2))) 22.71282的最小值。

【分析】种群大小10,最大代数1000,变异率0.1,交叉率0.3

【程序清单】

%源函数的matlab代码

function [eval]=f(sol)

numv=size(sol,2)

x=sol(1:numv)

eval=-20*exp(-0.2*sqrt(sum(x.^2)/numv)))-exp(sum(cos(2*pi*x))/numv) 22.71282

%适应度函数的matlab代码

function [sol,eval]=fitness(sol,options)

numv=size(sol,2)-1

x=sol(1:numv)

eval=f(x)

eval=-eval

%遗传算法的matlab代码

bounds=ones(2,1)*[-5 5]

[p,endPop,bestSols,trace]=ga(bounds,'fitness')

注:前两个文件存储为m文件并放在工作目录下,运行结果为

p =

0.0000 -0.0000 0.0055

大家可以直接绘出f(x)的图形来大概看看f(x)的最值是多少,也可是使用优化函数来验证。matlab命令行执行命令:

fplot('x 10*sin(5*x) 7*cos(4*x)',[0,9])

evalops是传递给适应度函数的参数,opts是二进制编码的精度,termops是选择maxGenTerm结束函数时传递个maxGenTerm的参数,即遗传代数。xoverops是传递给交叉函数的参数。mutops是传递给变异函数的参数。

【问题】求f(x)=x+10*sin(5x)+7*cos(4x)的最大值,其中0<=x<=9

【分析】选择二进制编码,种群中的个体数目为10,二进制编码长度为20,交叉概率为0.95,变异概率为0.08

【程序清单】

%编写目标函数

function[sol,eval]=fitness(sol,options)

x=sol(1)

eval=x+10*sin(5*x)+7*cos(4*x)

%把上述函数存储为fitness.m文件并放在工作目录下

initPop=initializega(10,[0 9],'fitness')%生成初始种群,大小为10

[x endPop,bPop,trace]=ga([0 9],'fitness',[],initPop,[1e-6 1 1],'maxGenTerm',25,'normGeomSelect',...

[0.08],['arithXover'],[2],'nonUnifMutation',[2 25 3]) %25次遗传迭代

运算借过为:x =

7.8562 24.8553(当x为7.8562时,f(x)取最大值24.8553)

注:遗传算法一般用来取得近似最优解,而不是最优解。

遗传算法实例2

【问题】在-5<=Xi<=5,i=1,2区间内,求解

f(x1,x2)=-20*exp(-0.2*sqrt(0.5*(x1.^2+x2.^2)))-exp(0.5*(cos(2*pi*x1)+cos(2*pi*x2)))+22.71282的最小值。

【分析】种群大小10,最大代数1000,变异率0.1,交叉率0.3

【程序清单】

%源函数的matlab代码

function [eval]=f(sol)

numv=size(sol,2)

x=sol(1:numv)

eval=-20*exp(-0.2*sqrt(sum(x.^2)/numv)))-exp(sum(cos(2*pi*x))/numv)+22.71282

%适应度函数的matlab代码

function [sol,eval]=fitness(sol,options)

numv=size(sol,2)-1

x=sol(1:numv)

eval=f(x)

eval=-eval

%遗传算法的matlab代码

bounds=ones(2,1)*[-5 5]

[p,endPop,bestSols,trace]=ga(bounds,'fitness')

注:前两个文件存储为m文件并放在工作目录下,运行结果为

p =

0.0000 -0.0000 0.0055

大家可以直接绘出f(x)的图形来大概看看f(x)的最值是多少,也可是使用优化函数来验证。matlab命令行执行命令:

fplot('x+10*sin(5*x)+7*cos(4*x)',[0,9])

evalops是传递给适应度函数的参数,opts是二进制编码的精度,termops是选择maxGenTerm结束函数时传递个maxGenTerm的参数,即遗传代数。xoverops是传递给交叉函数的参数。mutops是传递给变异函数的参数。

参考资料:不记得了,抱歉