非编程篇/可直接上手的工具
1. Excel
Excel是最容易上手的图表工具,善于处理快速少量的数据。结合数据透视表,VBA语言,可制作高大上的可视化分析和dashboard仪表盘。
单表或单图用Excel制作是不二法则,它能快速地展现结果。但是越到复杂的报表,excel无论在模板制作还是数据计算性能上都稍显不足,任何大型的企业也不会用Excel作为数据分析的主要工具。
2. 可视化 BI(Power BI \Tableau \ 帆软FineBI等等)
也许是Excel也意识到自己在数据分析领域的限制和眼下自助分析的趋势,微软在近几年推出了BI工具Power BI。同可视化工具Tableau和国内帆软的BI工具一样,封装了所有可能分析操作的编程代码,操作上都是以点击和拖拽来实现,几款工具的定位稍有不同。
Power BI
最大的明显是提供了可交互、钻取的仪表板,利用Power Pivot可直接生产数据透视报告,省去了数据透视表。
Tableau
可视化图表较为丰富,堪称一等, 操作更为简单。
帆软FineBI
企业级的BI应用,实用性较强,因2B市场的大热受到关注。千万亿级的数据性能可以得到保证,业务属性较重,能与各类业务挂钩。
对于个人,上手简单,可以腾出更多的时间去学习业务逻辑的分析。
编程篇
对于寻求更高境界数据分析师或数据科学家,如果掌握可视化的编程技巧,就可以利用数据做更多的事情。熟练掌握一些编程技巧,赋予数据分析工作更加灵活的能力,各种类型的数据都能适应。大多数设计新颖、令人惊艳的数据图几乎都可以通过代码或绘图软件来实现。
与任何语言一样,你不可能立刻就开始进行对话。要从基础开始,然后逐步建立自己的学习方式。很可能在你意识到之前,你就已经开始写代码了。关于编程最酷的事情在于,一旦你掌握了一门语言,学习其他语言就会更加容易,因为它们的逻辑思路是共通的。
1. Python语言
Python 语言最大的优点在于善于处理大批量的数据,性能良好不会造成宕机。尤其适合繁杂的计算和分析工作,而且,Python的语法干净易读,可以利用很多模块来创建数据图形比较受IT人员的欢迎。
利用 Python 生成的图表
2. PHP语言
PHP这个语言松散却很有调理,用好了功能很强大。在数据分析领域可以用php做爬虫,爬取和分析百万级别的网页数据,也可与Hadoop结合做大数据量的统计分析。
因为大部分 Web 服务器都事先安装了 PHP 的开源软件,省去了部署之类的工作,可直接上手写。
比如 Sparkline(微线表)库,它能让你在文本中嵌入小字号的微型图表,或者在数字表格中添加视觉元素,就像下面这张图一样:
利用 PHP 图形函数库生成的微线表
一般 PHP会和 MySQL 数据库结合使用,这使它能物尽其用,处理大型的数据集。
3. HTML、JavaScript 和 CSS语言
很多可视化软件都是基于web端的,可视化的开发,这几类语言功不可没。而且随着人们对浏览器工作越来越多的依赖,Web 浏览器的功能也越来越完善,借助 HTML、JavaScript 和 CSS,可直接运行可视化展现的程序。
可交互日历,同时也是用户使用 your.flowingdata 的热度图
不过还是有几点需要注意。由于相关的软件和技术还比较新,在不同浏览器中你的设计可能在显示上会有所差别。在 Internet Explorer 6 这类老旧的浏览器中,有些工具可能无法正常运行。比如一些银行单位仍旧使用着IE,无论是自己使用还是开发的时候都要考虑这样的问题。
4. R语言
R语言是绝大多数统计学家最中意的分析软件,开源免费,图形功能很强大。
谈到R语言的历史,它是专为数据分析而设计的,面向的也是统计学家,数据科学家。但是由于数据分析越来越热门,R语言的使用也不瘦那么多限制了。
R的使用流程很简洁,支持 R 的工具包也有很多,只需把数据载入到 R 里面,写一两行代码就可以创建出数据图形。比如利用 Portfolio 工具包快速创建出如下的板块层级图。
比如热度图
函数式语言
Elixir
Elixir 比 Erlang 更容易编写,具有 Haskell 等语言的函数式编程概念。Elixir是基于Erlang 虚拟机的,其广为人知的特点是运行低延时、分布式、可容错的系统,并成功用于Web开发与嵌入式软件领域。
Elm
Elm是一种用于构建 Web 应用程序的函数式语言。业内一般认为,它适用于创建高可交互应用,例如复杂的用户界面,开发人员可以通过 Elm 快速编写富有表现力的系统。Elm 也以没有运行时异常而闻名。
PureScript
PureScript是一种可编译为 JavaScript 的纯函数式编程语言。与 Haskell 最相似的是,PureScript 最适合用于开发 Web 应用程序和服务器端应用程序。
PureScript 支持类型推断,与其他语言相比,需要明显类型注释要少得多。
Swift
Swift是一种由苹果公司开发的通用编译编程语言,最早的设想是替代上一代编程语言Objective-C ,过程中结合了Objective-C、Rust、Ruby 和 Python等语言的编程思想。目前Swift用于开发苹果自己的手机、服务器、台式机上的应用软件。
程序语言
Go
Go语言是由谷歌公司创造的类似C风格的语言。Go 比 C++ 或 Java 更简洁,比 Ruby 或 Python 更安全。
一些缺点: 编码要求严格。比如,不能混用符号和无符号整数。还有一个明显的遗漏,Go语言没有泛型和继承。
但Go语言的优势同样明显,简单且易于使用。Go语言擅长于网络和多线程方面的编程。
面向对象语言
DART
Dart同样来自谷歌公司具有C语言风格。Dart可以轻松编写JavaScript、Java for Android、本地机器代码或独立的 Dart 虚拟机。它还可以运行后端代码。
Dart 非常适合使用事件驱动代码构建用户界面。根据Dart 团队成员的说法,Dart的优势:可选的静态类型、最小的编译时错误和强大的内置编辑器。
Pony
Pony是一种基于无数据竞争类型和垃圾收集的语言,并使用 actor 模型以及称为引用功能的东西。
你可以把 Pony 想象成某种“Rust 遇上 Erlang”的复合体,没有锁,高并发是其主要优点。
Pony 的缺点是 API 稳定性低、很少有高质量的第三方库和有限的本地工具。
TypeScript
TypeScript是一个基于 JavaScript 静态类型定义构建,并由微软维护且开源编程语言。Visual Studio Code 或Visual Studio 是推荐的IDE编辑器,微软大厂的用户体验和错误检查也不用怀疑。
复合编程语言
Hack
Hack是一种作为 PHP 方言的 HipHop 虚拟机的编程语言。于 2014 年由Facebook创建,允许程序员同时使用静态和动态类型(也称为渐进类型),这为编码提供了灵活性。
Julia
Julia是一种高级通用编程语言,用于计算科学和数值分析。Julia 以动态类型和可重现的高性能特性而闻名。
Julia 在数据可视化和机器学习等方面都有大量用途。事实上,它被英国保险公司 Aviva 用于风险计算,纽约联邦储备银行用于金融建模,甚至气候建模联盟用于气候变化建模。它拥有Fortran、C++、R、Java、C 、Python等的接口,这使其成为最受追捧的新语言之一。
Kotlin
Kotlin是运行在 Java 虚拟机中的更快、更流畅的 Java 版本。它现在是Android 开发的首选语言。根据 Android 开发者网站显示,程序员正转而采用 Kotlin,因为该语言的样板代码更少,空指针异常更少,并且与 Java 有互操作性。
Kotlin 可用于在 iOS 和 Android 上运行的应用程序、不使用额外运行时或虚拟机。
Nim
Nim是一种优先考虑可读性的静态类型语言。通过结合多种语言的特性,Nim 为程序员提供了速度和易用性。
它带有 JavaScript 后端、分散的包管理、自动内存管理、C 和 C++ 库的绑定以及用于调试的回溯。作为一种语言,Nim 是有限的,但它包含一组元编程功能,如泛型、模板和宏,因此开发人员可以在避免冗长代码的同时以不同的风格工作。
OCaml作为此列表中较旧的语言,OCaml是一种多范式语言——既有函数式、命令式和类型安全,也具有面向对象功能。
OCaml 的一些优势:定义数据类型很容易。默认情况下,所有变量都是不可变的。API 稳定,具有良好的库向后兼容性。该语言还为独立应用程序提供自动内存管理和单独编译。
Reason
如果比JavaScript 更快、更简单且类型安全会怎样?
这就是创建Reason的 Facebook 开发者想要回答的问题。不过,他并没有从头开始构建一种新语言,而是采用了 OCaml,并将其调整为类似于 JavaScript。
Reason使用项目 BucketScript编译为 JavaScript,并且可以访问 80% 的 JavaScript 工具和生态系统。它还可以编译为准系统、iOS、Android 和微控制器。
Red
Red是一种最初旨在克服 Rebol 语言限制的编程语言。Red 于 2011 年推出,受 Rebol、Lua 和 Scala 等语言的影响,对高级和低级编程都很有用。
该语言可用于开发从高级 GUI 到低级操作系统的所有方面。Red 拥有人性化的语法、低内存占用和垃圾收集等优点。
Rust
Rust解决了一些与 Go 相同的问题,如系统级别的线程和进程安全,,但Rust 更像 C 风格的语法
但Rust语言的缺点:静态类型和缺乏垃圾收集
Rust可直接访问内存意味着程序员可以编写低级代码,如操作系统内核。Rust 也非常适合嵌入式设备、网络服务和命令行编写。