在
实际的工程中,我们的服务器大多是基于Linux的,比如常见的 ubuntu、centos
等。这些操作系统有时并不提供图形化界面,这时候RStudio的服务器版本就派上用场了。启动RStudio
Server后,进入在浏览器中进入某一个页面后就可以像桌面版一样使用RStudio编辑器。当R的代码在服务器上出现bug了,线上的hotfix是
在所难免的,这时候必然会用到 RStudio Server 应个急。
这一次,我们将继续利用Docker神器,快速初始化RStudio Server环境的配置,并结合Git实现代码的版本控制。
准备
一个 Ubuntu 服务器
第一步:安装 RStudio Server
首先,我们通过docker 安装一个标准的RStudio Server
docker pull quantumobject/docker-rstudio
docker run -d -p 8787:8787 quantumobject/docker-rstudio
这样在你的电脑的8787端口就可以访问到rstudio的登陆界面了。
第二步:初始化 RStudio 账号
接着,我们需要初始化一个rstudio的账号
docker exec -it container-id /bin/bash
adduser harryzhu # 设置新用户名
passwd harryzhu # 设置该用户的密码
mkdir /home/harryzhu # 初始化工作空间
chmod -R harryzhu /home/harryzhu # 给工作空间赋权
第三步:安装 git
然后,我们进入rstudio的服务器,我们打算引入git版本控制
sudo apt-get install git-core
第四步:解决 ssh 的认证问题
使用 git 的过程可能遇到SSL certificate problem。对于ssh的问题,我们可以选择建立一个ssh认证的key,也可以在git中设置为忽略。
生成一个key:
$ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa):
Created directory '/root/.ssh'.
连续按下回车,跳过密码设置
显示秘钥信息:
sudo cat /root/.ssh/id_rsa.pub
如果没有ssh认证的需求,也可以选择忽略:
git config --global http.sslVerify false
第五步:在 RStudio Server 中配置Git
在最上方的菜单栏中可以选择Project Options。
接着填写配置。
第六步:克隆 Git 项目到本地
Git 功能已经集成在 RStudio-Server 中了,在新建项目时可以选择新建一个Version Control 的 Git 项目。
大功告成!
参考资料
docker-rstudio 手册
张丹老师的 RStudio-Server 配置实战
Rstudio 官方 git 解决方案
刘坤老师的 Git 中文教程
---------------------------------------------------------------------------------------------------------------
概述
本文根据 Rstudio Webinars 的教程资源对Rstudio流的R语言教程做一个汇总,可以看到Rstudio对统计报告的Web化和工程化做了大量贡献。感谢Rstudio的众多工程师在开源的道路上的贡献!
谢溢辉:LaTex/Word的统计报告大逃亡之Rmarkdown生态
教学视频地址
在可交互、可复用的统计报告中,谢溢辉将介绍一众R包,包括 knitr、rmarkdown、htmlwidgets、DT、leaflet以及shiny。
快速标准的论文书写# $something$ 或者 $$something$$ 可以解决数学公式的问题
# 利用 bib 文件和[@something] 可以解决引用的问题
# 同样的,你也可以根据一些机构要求引入标准的模板。
参考谢溢辉的Rmarkdown论文
参考谢溢辉的bib文件
屏蔽源码# ```{r echo=F}屏蔽源代码
# ```{r, fig.width=5, fig.height=4} 设置配图大小
# 脚注
代码段内存共享
利用cache选项复用代码和数据
Sys.sleep(5)
rnorm(1)
输出其他语言代码
利用engine选项选择代码引擎,驱动python、R、scala、Rcpp、bash、perl、node等
x = 'hello, python
world!'
print(x)
print(x.split(' '))
交互式文档
利用yaml配置中的runtime选项
---
author: Harry Zhu
output: html_document
runtime: shiny
---
同理,你也可以选择输出slide、pdf或者word,你甚至可以给html定制一个css皮肤。
在我看来,rmarkdown是一款超越Zeppelin和iPython notebook的产品。
最总要的意义在于,学术工作者和工程师们不仅仅可以摆脱格式对创作的束缚专注于代码和文档,更是随意输出pdf、slide、html、word、latex等多种格式,形成强有力的跨界冲击。
谢溢辉本人有超过10年以上的LaTex使用经验,他的rmarkdown和knitr造福了一代学术工作者,显然LaTex和Word的体系在这种降维攻击下已经摇摇欲坠。
Hadley Wickham:R与大数据共舞
教学视频地址
R是一门为小数据探索和开发设计的语言,但在生产中R和大数据在一起还能发挥作用吗? 我们定义数据量大于单机内存的数据为大数据。让我们对比一下大数据与小数据的生命周期。
一个小数据分析项目的生命周期:
阐明:熟悉数据、模板解决方案
开发:创建有效模型
产品化:自动化与集成
发布:社会化
一个大数据分析项目的生命周期:
切片:抽取部分数据
阐明:熟悉数据、模板解决方案
开发:创建有效模型
扩展:使用到整个数据集
产品化:自动化与集成
发布:社会化
dplyr与数据读取
教学视频地址
PackageDBMSsrc_sqlite()SQLitesrc_mysqlMySQLsrc_postgresPostgreSQLlibrary(bigquery) src_bigquery()Google BigQuery
显示SQLshow_query(clean)
中间缓存
collapse()返回正在处理的结果
# 抽取 1% 的训练数据
random <- clean %>%
mutate(x = random()) %>%
collapse() %>%
filter(x <= 0.01) %>%
select(-x) %>%
collect()
数据存储
copy_to() 根据本地的data frame 在数据库创建一个表
# air为connection名称,query5为data frame,"gains"为表名
copy_to(air, query5, name = "gains")
# 关闭连接
rm(air)
# 垃圾收集器
gc()
Hadley Wickham:ETL
教学视频地址
本节将讨论一个有效的数据分析/数据科学问题框架,包括:
数据读取 readr/httr/DBI
数据清洗 tidyr/jsonlite
数据处理 dplyr/rlist
数据可视化 ggplot2/ggvis
数据建模 broom
broom:快速分析install.packages("broom")
# 查看相关例子
browseVignettes(package="broom")
Hadley Wickham是RStudio的首席科学家,并兼任统计莱斯大学的兼职教授。他将一一介绍他认为你应该知道的各种R包,并概述大数据和R,但主要是解释为什么他相信你不应该担心大数据的问题。
garrettgman:packrat与虚拟化技术
教学视频地址
你
是否有过这样与人合作开发的经历:在自己机器上运行完美的R代码,复制到另外一台同事的机器上运行就有很多R包需要重新安装,有的R包甚至依赖于不同的版
本?现在,在不使用Docker或Vagrant等全局虚拟化技术的条件下,只需要运用packrat包,就可以保证你的R项目的依赖问题被很好的解决,
一次运行,到处运行。
if(!require(packrat)){install.packages("packrat")}
getOption("repos") # 显示代码镜像源
packrat:: bundle() # 打包当前环境并虚拟化
packrat:: unbundle(bundle="xxx.tar.gz",where=".") # 加载已经打包过的环境
packrat::opts$local.repos("~/R") # 设置本地repos为路径
packrat::install_local("pryr") # 从本地安装
Hadley Wickham:Git与团队协作
教学视频地址
团队协作:利用Git 和 GitHub,你可以很轻松的与人协作,你不再需要用邮件附件来备份文档,或者在Dropbox上为争夺编辑权限而争吵。相反,你可以独立工作,最后只需要合并你们的成果就可以。
版本控制: Git 在我们制造重大错误时都允许我们回滚到之前的任意时间点。我们也可以回顾我们之前所做的一起历史记录,跟踪bug的形成过程。
本书从实际应用出发,结合实例及应用场景,通过对大量案例进行详细阐述和深入分析,进而指导读者在实际工作中通过R语言对 游戏 数据进行分析和挖掘。这是一本关于数据分析实战的书籍,里面的知识、方法、理论是可以直接应用到整个互联网的。
全书一共13章,分为三篇:基础篇、实战篇和提高篇。
第一篇是基础篇(第1~4章): 介绍了 游戏 数据分析的基本理论知识、R语言的安装与使用、R语言中的数据结构、常用操作和绘图功能。
第1章主要介绍了 游戏 数据分析的必要性和流程;第2章讲解了R语言和RStudio的安装及使用方法,并对数据对象和数据导入进行了介绍;第3章介绍了R语言绘图基础,包括常用图形参数设置、低级绘图函数和高级绘图函数;第4章介绍了lattice和ggplot2绘图包,并详细介绍了一些基于R语言可用于生成交互式图形的软件包,包括rCharts、recharts、rbokeh、plotly等。
第二篇是实战篇(第5~11章): 主要介绍了 游戏 数据的预处理、常用分析方法、玩家路径分析和用户分析。
第5章介绍了 游戏 数据预处理常用的手段,包括数据抽样、数据清洗、数据转换和数据哑变量处理;第6章介绍了 游戏 数据分析的常用方法,包括指标数据可视化、 游戏 数据趋势分析、 游戏 数据相关性分析和 游戏 数据中的降维技术;第7章介绍了事件点击行为常用的漏斗分析和路径分析;第8章介绍了留存指标的计算、留存率计算与预测、常用分类算法原理和模型评估;第9章介绍了常用用户指标计算、LTV计算与预测、用户物品购买关联分析、基于用户物品购买智能推荐和 社会 网络分析;第10章介绍了渠道数据分析的必要性和对渠道用户进行质量评级;第11章介绍了常用收入指标计算、利用用户活跃度衡量 游戏 经济状况、RFM模型研究。
第三篇是提高篇(第12~13章): 介绍了R语言图形界面工具Rattle和Web开发框架shiny包。
第12章介绍了R语言的图形界面工具Rattle,该工具能够在图形化的界面上完成数据导入、数据 探索 、数据可视化、数据建模和模型评估整个数据挖掘流程;第13章介绍了Web开发框架shiny包,使得R的使用者不必太了解CSS、JS,只需要了解一些HTML的知识就可以快速完成Web开发。
关键词: 程序语言,程序设计
完整课程可前往UWA学堂《R语言 游戏 数据分析与挖掘》阅读。
https://edu.uwa4d.com/course-intro/0/383
随着 游戏 市场竞争的日趋激烈,在如何获得更大收益延长 游戏 周期的问题上,越来越多的手机 游戏 开发公司开始选择借助大数据,以便挖掘更多更细的用户群来进行精细化、个性化的运营。数据分析重要的不是提供 历史 和现状,而是通过分析发现手机 游戏 现状,以及对未来进行预测。一切以数据出发,用数据说话,让数据更好地指导运营服务好玩家,对玩家的行为和体验不断进行分析和调整,使玩家可以在虚拟世界中得到各方面的满足。要实现这个目的,需要搭建专业的数据化运营团队。此外, 游戏 数据分析与其他行业的数据分析不同的是, 游戏 综合了经济、广告、社交、心理等方面的内容,这就对数据分析师提出了更高的要求。
伴随着 游戏 互联网的快速发展和智能终端的普及,移动 游戏 进入了全民时代。越来越多的玩家利用碎片化时间进行 游戏 ,使得 游戏 数据呈现井喷式增长,同时也对数据存储技术、计算能力、数据分析手段提出了更高的要求。海量数据的存储是必须面对的第一个挑战,随着分布式技术的逐渐成熟,越来越多的互联网企业采用分布式的服务器集群 分布式存储的海量存储器进行数据的存储和计算,从而解决数据存储和计算能力不足的问题。如何在海量的、复杂高维的 游戏 数据中发掘出有价值的知识,将是很多公司下一步亟待解决的难题。
虽然积累了海量的玩家数据,很多公司也开发了自己的BI报表系统,但是多数停留在“看数据”阶段,还是用传统的数据分析方法对数据进行简单的加工、统计及展示,并没有进行深度挖掘发现数据背后的规律和把握未来趋势。正是在这样的大背景下, 游戏 数据分析逐渐在 游戏 行业中变得重要。公司需要从传统的粗放型运营进化到精细化运营,从而了解如何有效地获取用户、评估效果;如何激活用户、评估产品质量;如何提升收益,并挖掘潜在的高价值用户。要满足精细化运营的需求,数据化运营就应运而生了。数据化运营就是在以海量数据的存储、分析、挖掘和应用的核心技术支持的基础上,通过可量化、可细分、可预测等一系列精细化的方式来进行的。
数据化运营是飞速发展的数据存储技术、数据挖掘技术等诸多先进数据技术直接推动的结果。数据技术的飞速发展,使数据存储成本大大减低,同时提供了成熟的数据挖掘算法和工具让公司可以去尝试海量数据的分析、挖掘、提炼和应用。有了数据分析、数据挖掘的强有力支持,运营不再靠“拍脑袋”,可以真正做到运营过程自始至终都心中有数。比如,在玩家的细分推送中,数据分析师利用数据挖掘手段对玩家进行分群,运营根据不同的用户群制定差异化策略,数据分析师再根据推送效果进行评估。
完整课程可前往UWA学堂《R语言 游戏 数据分析与挖掘》阅读。
https://edu.uwa4d.com/course-intro/0/383
1、 游戏 数据分析师
2、 游戏 产品运营人员
3、产品数据挖掘