Superset 后端启动服务(可参考)

Python013

Superset 后端启动服务(可参考),第1张

⑴ python 3.7.8 版本(文件中 -cp37- 指python 3.7.x 版本),配置环境变量

检查python版本 CMD =>python

⑵ pip 20.1.1 版本,配置环境变量

检查pip版本 CMD =>pip -V

更新命令: python -m pip install --upgrade pip (或:pip install --upgrade pip)

3.安装requirements.txt、requirements-dev.txt文件依赖

命令:

⑴ pip install -r requirements.txt

⑵ pip install -r requirements-dev.txt

4.安装-e

命令:

⑴ pip install -e .

5.安装虚拟环境

命令:

⑴ pip install virtualenv

⑵ virtualenv env

启动虚拟环境:

⑴ 目录:D:\ys\superset\env\Scripts>activate

⑵ 激活成功:(env) D:\ys\superset\env\Scripts>

退出虚拟环境:deactivate

6.安装.whl文件安装包(全部带.whl的文件)

pip install xxx.whl

示例:

pip install D:\ys\superset\pyrsistent-0.15.7-cp37-cp37m-win_amd64.whl

7.项目启动

⑴ 虚拟环境启动成功

⑵ 启动:

① 目录:(env) D:\ys\superset\superset\bin>python superset run

② 命令:python superset run

前言,学大数据要先换电脑:

保证电脑4核8G内存64位操作系统,尽量有ssd做系统盘,否则卡到你丧失信心。硬盘越大越好。

1,语言要求

java刚入门的时候要求javase。

scala是学习spark要用的基本使用即可。

后期深入要求:

java NIO,netty,多线程,ClassLoader,jvm底层及调优等,rpc。

2,操作系统要求

linux 基本的shell脚本的使用。

crontab的使用,最多。

cpu,内存,网络,磁盘等瓶颈分析及状态查看的工具。

scp,ssh,hosts的配置使用。

telnet,ping等网络排查命令的使用

3,sql基本使用

sql是基础,hive,sparksql等都需要用到,况且大部分企业也还是以数据仓库为中心,少不了sql。

sql统计,排序,join,group等,然后就是sql语句调优,表设计等。

4,大数据基本了解

Zookeeper,hadoop,hbase,hive,sqoop,flume,kafka,spark,storm等这些框架的作用及基本环境的搭建,要熟练,要会运维,瓶颈分析。

5,mapreduce及相关框架hive,sqoop

深入了解mapreduce的核心思想。尤其是shuffle,join,文件输入格式,map数目,reduce数目,调优等。

6,hive和hbase等仓库

hive和hbase基本是大数据仓库的标配。要回用,懂调优,故障排查。

hbase看浪尖hbase系列文章。hive后期更新。

7,消息队列的使用

kafka基本概念,使用,瓶颈分析。看浪尖kafka系列文章。

8,实时处理系统

storm和spark Streaming

9,spark core和sparksql

spark用于离线分析的两个重要功能。

10,最终方向决策

a),运维。(精通整套系统及故障排查,会写运维脚本啥的。)

b),数据分析。(算法精通)

c),平台开发。(源码精通)

自学还是培训?

无基础的同学,培训之前先搞到视频通学一遍,防止盲目培训跟不上讲师节奏,浪费时间,精力,金钱。

有基础的尽量搞点视频学基础,然后跟群里大牛交流,前提是人家愿意,

想办法跟大牛做朋友才是王道。