【R语言】--- 饼状图

Python015

【R语言】--- 饼状图,第1张

饼状图,又称为饼图,能够划分几个扇形的圆形统计图。可以描述量、频率、占比的相对关系。R语言中,可以用graphics包的pie()函数、ggplot2包的geom_bar()配合coord_polar()函数绘制,3D 的饼状图,可以使用 plotrix包的pie3D()函数。本文详细介绍饼状图的绘制。

x: 数值向量,表示每个扇形的面积

labels: 字符型向量,表示各扇形面积标签

edges: 多边形的边数(圆的轮廓类似很多边的多边形)

radius: 饼图半径

main: 饼图标题

clockwise: 逻辑值,用来指示饼图各个切片是否按顺时针做出分割

angle: 设置底纹的斜率

density: 底纹的密度,默认值为 NULL

col: 是表示每个扇形的颜色,相当于调色板

[1] Robert I. Kabacoff (著). R语言实战(高涛/肖楠/陈钢 译). 北京: 人民邮电出版社.

[2] https://www.runoob.com/r/r-pie-charts.html

[3] https://zhuanlan.zhihu.com/p/80415566

RStudio Server 是 RStudio 公司打造的一款基于 Web 的开源编辑器,如果你熟悉 RStudio的桌面版本,那么使用RStudio Server对你来说基本上没什么难度。

实际的工程中,我们的服务器大多是基于Linux的,比如常见的 ubuntu、centos

等。这些操作系统有时并不提供图形化界面,这时候RStudio的服务器版本就派上用场了。启动RStudio

Server后,进入在浏览器中进入某一个页面后就可以像桌面版一样使用RStudio编辑器。当R的代码在服务器上出现bug了,线上的hotfix是

在所难免的,这时候必然会用到 RStudio Server 应个急。

这一次,我们将继续利用Docker神器,快速初始化RStudio Server环境的配置,并结合Git实现代码的版本控制。

准备

一个 Ubuntu 服务器

第一步:安装 RStudio Server

首先,我们通过docker 安装一个标准的RStudio Server

docker pull quantumobject/docker-rstudio

docker run -d -p 8787:8787 quantumobject/docker-rstudio

这样在你的电脑的8787端口就可以访问到rstudio的登陆界面了。

第二步:初始化 RStudio 账号

接着,我们需要初始化一个rstudio的账号

docker exec -it container-id /bin/bash

adduser harryzhu # 设置新用户名

passwd harryzhu # 设置该用户的密码

mkdir /home/harryzhu # 初始化工作空间

chmod -R harryzhu /home/harryzhu # 给工作空间赋权

第三步:安装 git

然后,我们进入rstudio的服务器,我们打算引入git版本控制

sudo apt-get install git-core

第四步:解决 ssh 的认证问题

使用 git 的过程可能遇到SSL certificate problem。对于ssh的问题,我们可以选择建立一个ssh认证的key,也可以在git中设置为忽略。

生成一个key:

$ssh-keygen -t rsa

Generating public/private rsa key pair.

Enter file in which to save the key (/root/.ssh/id_rsa):

Created directory '/root/.ssh'.

连续按下回车,跳过密码设置

显示秘钥信息:

sudo cat /root/.ssh/id_rsa.pub

如果没有ssh认证的需求,也可以选择忽略:

git config --global http.sslVerify false

第五步:在 RStudio Server 中配置Git

在最上方的菜单栏中可以选择Project Options。

接着填写配置。

第六步:克隆 Git 项目到本地

Git 功能已经集成在 RStudio-Server 中了,在新建项目时可以选择新建一个Version Control 的 Git 项目。

大功告成!

参考资料

docker-rstudio 手册

张丹老师的 RStudio-Server 配置实战

Rstudio 官方 git 解决方案

刘坤老师的 Git 中文教程

---------------------------------------------------------------------------------------------------------------

概述

本文根据 Rstudio Webinars 的教程资源对Rstudio流的R语言教程做一个汇总,可以看到Rstudio对统计报告的Web化和工程化做了大量贡献。感谢Rstudio的众多工程师在开源的道路上的贡献!

谢溢辉:LaTex/Word的统计报告大逃亡之Rmarkdown生态

教学视频地址

在可交互、可复用的统计报告中,谢溢辉将介绍一众R包,包括 knitr、rmarkdown、htmlwidgets、DT、leaflet以及shiny。

快速标准的论文书写# $something$ 或者 $$something$$ 可以解决数学公式的问题

# 利用 bib 文件和[@something] 可以解决引用的问题

# 同样的,你也可以根据一些机构要求引入标准的模板。

参考谢溢辉的Rmarkdown论文

参考谢溢辉的bib文件

屏蔽源码# ```{r echo=F}屏蔽源代码

# ```{r, fig.width=5, fig.height=4} 设置配图大小

# 脚注

代码段内存共享

利用cache选项复用代码和数据

Sys.sleep(5)

rnorm(1)

输出其他语言代码

利用engine选项选择代码引擎,驱动python、R、scala、Rcpp、bash、perl、node等

x = 'hello, python

world!'

print(x)

print(x.split(' '))

交互式文档

利用yaml配置中的runtime选项

---

author: Harry Zhu

output: html_document

runtime: shiny

---

同理,你也可以选择输出slide、pdf或者word,你甚至可以给html定制一个css皮肤。

在我看来,rmarkdown是一款超越Zeppelin和iPython notebook的产品。

最总要的意义在于,学术工作者和工程师们不仅仅可以摆脱格式对创作的束缚专注于代码和文档,更是随意输出pdf、slide、html、word、latex等多种格式,形成强有力的跨界冲击。

谢溢辉本人有超过10年以上的LaTex使用经验,他的rmarkdown和knitr造福了一代学术工作者,显然LaTex和Word的体系在这种降维攻击下已经摇摇欲坠。

Hadley Wickham:R与大数据共舞

教学视频地址

R是一门为小数据探索和开发设计的语言,但在生产中R和大数据在一起还能发挥作用吗? 我们定义数据量大于单机内存的数据为大数据。让我们对比一下大数据与小数据的生命周期。

一个小数据分析项目的生命周期:

阐明:熟悉数据、模板解决方案

开发:创建有效模型

产品化:自动化与集成

发布:社会化

一个大数据分析项目的生命周期:

切片:抽取部分数据

阐明:熟悉数据、模板解决方案

开发:创建有效模型

扩展:使用到整个数据集

产品化:自动化与集成

发布:社会化

dplyr与数据读取

教学视频地址

PackageDBMSsrc_sqlite()SQLitesrc_mysqlMySQLsrc_postgresPostgreSQLlibrary(bigquery) src_bigquery()Google BigQuery

显示SQLshow_query(clean)

中间缓存

collapse()返回正在处理的结果

# 抽取 1% 的训练数据

random <- clean %>%

mutate(x = random()) %>%

collapse() %>%

filter(x <= 0.01) %>%

select(-x) %>%

collect()

数据存储

copy_to() 根据本地的data frame 在数据库创建一个表

# air为connection名称,query5为data frame,"gains"为表名

copy_to(air, query5, name = "gains")

# 关闭连接

rm(air)

# 垃圾收集器

gc()

Hadley Wickham:ETL

教学视频地址

本节将讨论一个有效的数据分析/数据科学问题框架,包括:

数据读取 readr/httr/DBI

数据清洗 tidyr/jsonlite

数据处理 dplyr/rlist

数据可视化 ggplot2/ggvis

数据建模 broom

broom:快速分析install.packages("broom")

# 查看相关例子

browseVignettes(package="broom")

Hadley Wickham是RStudio的首席科学家,并兼任统计莱斯大学的兼职教授。他将一一介绍他认为你应该知道的各种R包,并概述大数据和R,但主要是解释为什么他相信你不应该担心大数据的问题。

garrettgman:packrat与虚拟化技术

教学视频地址

是否有过这样与人合作开发的经历:在自己机器上运行完美的R代码,复制到另外一台同事的机器上运行就有很多R包需要重新安装,有的R包甚至依赖于不同的版

本?现在,在不使用Docker或Vagrant等全局虚拟化技术的条件下,只需要运用packrat包,就可以保证你的R项目的依赖问题被很好的解决,

一次运行,到处运行。

if(!require(packrat)){install.packages("packrat")}

getOption("repos") # 显示代码镜像源

packrat:: bundle() # 打包当前环境并虚拟化

packrat:: unbundle(bundle="xxx.tar.gz",where=".") # 加载已经打包过的环境

packrat::opts$local.repos("~/R") # 设置本地repos为路径

packrat::install_local("pryr") # 从本地安装

Hadley Wickham:Git与团队协作

教学视频地址

团队协作:利用Git 和 GitHub,你可以很轻松的与人协作,你不再需要用邮件附件来备份文档,或者在Dropbox上为争夺编辑权限而争吵。相反,你可以独立工作,最后只需要合并你们的成果就可以。

版本控制: Git 在我们制造重大错误时都允许我们回滚到之前的任意时间点。我们也可以回顾我们之前所做的一起历史记录,跟踪bug的形成过程。

r语言程序如何在没有安装r的电脑上运行?Copyright © 1999-2020, CSDN.NET, All Rights Reserved

登录

面试题

1.请描述一下cookies,sessionStorage和localStorage的区别

sessionStorage用于本地存储一个会话(session)中的数据,这些数据只有在同一个会话中的页面才能访问并且当会话结束后数据也随之销毁。因此sessionStorage不是一种持久化的本地存储,仅仅是会话级别的存储。而localStorage用于持久化的本地存储,除非主动删除数据,否则数据是永远不会过期的。

web storage和cookie的区别

Web Storage的概念和cookie相似,区别是它是为了更大容量存储设计的。Cookie的大小是受限的,并且每次你请求一个新的页面的时候Cookie都会被发送过去,这样无形中浪费了带宽,另外cookie还需要指定作用域,不可以跨域调用。

除此之外,Web Storage拥有setItem,getItem,removeItem,clear等方法,不像cookie需要前端开发者自己封装setCookie,getCookie。但是Cookie也是不可以或缺的:Cookie的作用是与服务器进行交互,作为HTTP规范的一部分而存在 ,而Web Storage仅仅是为了在本地“存储”数据而生。

1、 在通常情况下面 jpg与jpeg是一样的,只是里面保存的数据不一样,但我们多数使用的是jpg(后缀是小写,大写的有些是无法读写),在图片颜色丰富的地方使用该格式保存,像拍摄的相片,ps合成的图片,经常保存图片时我会压缩20% 保留80%,看上去没有变化,但文件大小小了很多

2、 png是用于全透明(保存png24)图片,该格式是多数用于小型格式的图片,不然文件会很大

3、 gif是用于网络图片,可以制作成带有帧的动画图片,图片文件比较小,同时颜色也不是很丰富,不建议用于带简便的图片,除了颜色很浅很简单的切片;

4、 bmp一般是windows保存的高保真图片,图片很大;

5、 tiff一般用于印刷图片,平面设计可以保存格式并发送给制作部门制作实物,图片也一般较大;

ai、cdr、eps是矢量图形,根据自己的使用习惯,可以调整,并没有特别的界限;

1、请谈谈你对性能优化的认识?

网页内容

减少http请求次数

80%的响应时间花在下载网页内容(images, stylesheets, javascripts,scripts, flash等)。减少请求次数是缩短响应时间的关键!可以通过简化页面设计来减少请求次数,但页面内容较多可以采用以下技巧。

图片显示效果如左图

减少DNS查询次数

DNS查询也消耗响应时间,如果我们的网页内容来自各个不同的domain (比如嵌入了开放广告,引用了外部图片或脚本),那么客户端首次解析这些domain也需要消耗一定的时间。DNS查询结果缓存在本地系统和浏览器中一段时间,所以DNS查询一般是对首次访问响应速度有所影响。下面是我清空本地dns后访问博客园主页dns的查询请求。

缓存Ajax

Ajax可以帮助我们异步的下载网页内容,但是有些网页内容即使是异步的,用户还是在等待它的返回结果,例如ajax的返回是用户联系人的下拉列表。所以我们还是要注意尽量应用以下规则提高ajax的响应速度。