Spark 中用 Scala 和 java 开发有什么区别

Python012

Spark 中用 Scala 和 java 开发有什么区别,第1张

Scala到底是什么?在目前众多的JVM语言当中,Scala无疑是最引人注意的语言之一。Scala是一个静态语言,更适合大型工程项目,Scala直接编译成Java字节码,性能接近Java。Scala是一个多范式的语言,你可以混合使用函数式和面向对象编程,混合使用可变类和不变类,混合使用Actor和传统的Java并发库。

短短一个月的时间,Scala于本月冲进了TIOBE的前五十名。一个 Twitter 的开发人员说过,Scala 将会成为现代 Web2.0 的发起语言。LinkedIn 也用这种语言。同样许多其他大的公司如 Sony Picture, EDF, SAP 也开始使用这种语言。为什么Scala发展这么迅猛,可以获得如此热烈的社区支持。

曾冠东还表示,Scala不是Java的杀手,它无法取代Java的地位,也突破不了JVM的限制、Java实现不了的功能它也实现不了。我们可以将Scala形象的理解成大量语法糖的Java。

Scala 开发团队发布了最新的2.9.2稳定版本,Scala 语言的特性有许多,例如高阶函数和对象、抽象类型绑定,actor 使得函数在 Scala 中能是一个子类成为可能,Scala 中的设计模式使得面向对象和函数编程无缝结合。Akka 是一个用 Scala 编写的库,用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。它已经成功运用在电信行业。Spark 是一种可扩展的数据分析平台,它整合了内存计算的基元,因此,相对于 Hadoop 的集群存储方法,它在性能方面更具优势。Spark 是在 Scala 语言中实现的,并且利用了该语言,为数据处理提供了独一无二的环境。Scala 编译器可以生成字节码,直接运行在使用JVM上。该语言(它实际上代表了可扩展语言)被定义为可直接集成到语言中的简单扩展。

Scala作为一门静态语言,它的主要特性有哪些?

· Scala是面向对象的

Scala是一个纯面向对象语言,在某种意义上来讲所有数值都是对象。对象的类型和行为是由class和trait来描述的。Class的抽象可由子类化和一种灵活的基于mixin的组合机制(它可作为多重继承的简单替代方案)来扩展。

· Scala是函数式的

Scala还是一个函数式语言,在某种意义上来讲所有函数都是数值。Scala为定义匿名函数提供了一种轻量级的语法,它支持高阶(higher-order)函数、允许函数嵌套、支持局部套用(currying)。Scala的case类及其内置支持的模式匹配模型代数类型在许多函数式编程语言中都被使用。

· Scala是静态类型的

Scala配备了一套富有表现力的类型系统,该抽象概念以一种安全的和一致的方式被使用。

· Scala是可扩展的

Scala的设计承认了实践事实,领域特定应用开发通常需要领域特定语言扩展。Scala提供了一个独特的语言组合机制,这可以更加容易地以类库的形式增加新的语言结构:

任何方式可以被用作中缀(infix)或后缀(postfix)操作符闭包按照所期望的类型(目标类型)自动地被构造

两者结合使用可方便地定义新语句,无需扩展语法,也无需使用类似宏的元编程工具。

· Scala可与Java和.NET进行互操作

Scala设计时就考虑了与流行编程环境良好交互,如Java 2运行时环境(JRE)和 .NET框架(CLR)。特别是与主流面向对象语言,如Java和C#尽量无缝交互。Scala有像Java和C#一样的编译模型(独立编译,动态装载类),允许访问成千上万的高质量类库。

在并发性方面,与 Scala 在 .NET 领域中的姐妹语言 F# 相似,Scala 是针对 “并发性问题” 的解决方案之一,让开发人员能够更加轻松地专注于问题的实质,而不用考虑并发编程的低级细节。Actor 编程模式让高度并行应用程序的开发更加简单。Scala把Erlang风格的基于actor的并发带进了JVM。我们可以利用Scala的actor模型在JVM上设计具伸缩性的并发应用程序,以自动获得多核心处理器带来的优势,而不必依照复杂的Java线程模型来编写程序。Scala 为并发性提供了两种级别的支持,这与其他与 Java 相关的主题极为类似:

首先,对底层库的完全访问(比如说 java.util.concurrent)以及对 “传统” Java 并发性语义的支持(比如说监控程序和wait()/notifyAll())。其次,这些基本机制上面有一个抽象层

Scala 提供了在稳定的高性能平台(Java 虚拟机)上生成的能力同时也是一门敏捷性语言。这一类型的语言也有其他的选择,例如 Jython, JRuby, Groovy 和 Clojure, 但是这些都是运行在 JVM 上的动态类型语言。Open Class 的效果让大家会觉得Scala是动态语言,但它是选择隐式转换来实现的,这也正好证明了Scala是静态语言。隐式转换(Implicit conversion)使 Scala 具有类型安全性,正如扩展方法(extension method)之于 C#,开放类(open class)之于 ruby。即:向未曾定义的类型添加方法(如字符串、列表、整数)。这是使得 Scala 符合 DSL(特定领域语言)模型的特性之一。

Scala结合了面向对象和函数编程的优势,函数编程的一个好处就是你能够像运用一个数据那样运用函数,可以用来定义真正高层级的库,或者去定义新的领域特殊语言(DSL)。

在谈及Java与Scala的对比时,曾冠东表示,Scala能调用绝大部分的Java,而Java调用Scala独有的东西会比较难。Java 拥有非常强的概念规范,因此任何一个 Java 程序之间具有非常多的相似之处,并且这样能够方便的进行程序员交替。但是 Scala 并没有这样的统一性,因为这是一门很有表现力的语言。现场曾冠东为我们演示了实际案例,如下图所示:

正所谓,金无足赤,人无完人。Scala对二进制不兼容,语法也越来越复杂,不能突破Bytecode的限制、编译速度有所缓慢。当它被广泛用于单元测试、开发工具、Socket开发、以及面对多核挑战的并发应用。总而言之,Scala是一种函数式面向对象语言,它融汇了许多前所未有的特性,而同时又运行于JVM之上。正如JRuby 创建者之一Charles Nutter 所宣称的那样Scala就是 Java 王位的合法继承人。随着开发者对Scala的兴趣日增,以及越来越多的工具支持,无疑Scala语言将成为广大软件工程师手上一件必不可少的工具。

做Java开发都需要学什么?怎么学?

java开发主要学习的课程内容有:

1.JAVA SE基础

Java 开发前奏 环境搭建

Java程式设计基础

面向物件

常用 类 API

泛型 集合

异常处理

IO

多执行绪

网路程式设计

类载入机制与反射

设计模式

2、JavaWeb核心技术

HTTP 协议   WEB伺服器 TomCat

Servlet

request与response

Cookie与Session

JSP

资料库高阶开发

AJAX

JavaWEB高阶开发技术

基础加强之框架载入

专案管理

3、核心框架

Struts2

Hibernate

Spring

Maven

MyBatis

JPA

SpringData

SpringMVC

SpringSecurity

Shiro

Linux

专案穿插

4、大资料

大资料架构基础

云端计算基础

Shell

环境搭建

Hadoop体系

HDFS分散式档案系统

资料汇入

5、综合学习,Java大资料课程

Java大资料课程定位中高阶Java开发工程师,课程内容涉及面广,内容深

课程涵盖了JavaWeb,资料库,企业流行框架,JavaScript等企业最佳实践、云端计算大资料课程、内容由浅入深,剖析原理,掌握实用技术。

多个企业级的大型真实专案学习;

Java大资料课程内容来源于企业,课程包含企业中使用最多、最热门的核心技术和框架;

java的学习方式如下:

1、网上参加网路线上教育直播课程,通过边学习网上操作专案实战学习,一般课时为6个月左右。

2、参加线下的java型别的培训班,以全日制上课模式,一般为6个月——2年时间左右。

3、如果有一定的程式设计和计算机经验,自学可以选择看书、看视讯教学,然后操作实战方式。学习时长未知。

java开发都需要学什么

”,“我看完了Thinking in Java, 可以学习J2EE了么?”。于是就有了写这篇文章的想法,希望能帮助初学者少走一些弯路。也算是对自己几年来学习Java的一个总结吧。 在开始之前有必要再讨论一下J2ME,J2SE,J2EE这些概念。J2ME,The Micro Edition of the Java 2 Platform。主要用于嵌入式Java,如手机,PDA等等。J2SE,Java 2 Platform,Standard Edition,我们通常所说的JDK(Java Development Kit)包含在此,是J2EE的基础。J2EE,Java 2 Platform,Enterprise Edition,就是所谓的企业级Java。这些只是从API级别上的划分,实际上Sun给J2EE的定义是:开发基于元件的多层的企业级应用的规范。也就是为各种不同的技术定义一个Java的规范,使这些不同的技术结合起来,在Java平台上构建强壮的企业级应用。从这一点来看,J2EE这个概念应该是涵盖J2ME,J2SE的。比如一个典型的J2EE应用,网上商店,它支援web方式下订单,也支援手机下订单。显然必须用到J2SE,J2ME。所以也就不存在所谓的从J2SE转向J2EE的问题了,只是后者包含的范围更广而已。 来看看Sun给出的J2EE 相关技术主要分为几大块。 1. Web Service技术 - Java API for XML Processing (JAXP) - Java API for XML Registries (JAXR) - Java API for XML-based RPC (JAX-RPC) - SOAP with Attachments API for Java (SAAJ) 2. 元件模型技术(Component Model Technologies) - Java Servlet - JavaServer Pages - JavaServer Faces - Enterprise JavaBeans - Java Message Service - J2EE Connector Architecture 3. 管理技术(Management Technologies) - J2EE Deployment Specification - J2EE Management Specification - J2EE Client Provisioning - Java Authorization Contract for Containers 4. 其他相关技术(Other J2EE Technologies) - JDBC - Java Data Objects (JDO) - CORBA (Java IDL and Java RMI-IIOP) - JavaMail - Transactions 如此之多的技术难免使初学者无所适从,望而却步。即使是一位经验丰富的J2EE开发者,又有几个人敢说J2EE相关的技术我都熟练掌握了。不过作为一名普通J2EE应用程式的开发者来说,我们只需要重点学习其中的一部分技术就可以了,对于其他部分只要做到心中有数,哪天需要用到了知道跑哪里去找到资料就行了。以我个人的观点,下面这些技术是一般J2EE应用开发人员所必须熟练掌握的。Java Server Page,Java Servlet,Enterprise JavaBean,JDBC,Transactions。还有JAXP等XML相关技术,Java Message Service,Java Mail,JDO等等是最好应该掌握的。其他Management Technologies,Connector Architecture等等主要是给容器提供商中介软体提供商参考的,应用开发者不需要怎么关心,等用到了再去学习也不迟。 、、 Java发展到现在,按应用来分主要分为三大块:J2SE,J2ME和J2EE。这三块相互补充,应用范围不同。 J2SE就是Java2的标准版,主要用于桌面应用软体的程式设计; J2ME主要应用于嵌入是系统开发,如手机和PDA的程式设计; J2EE是Java2的企业版,主要用于分散式的网路程式的开发,如电子商务网站和ERP系统。 先学习j2se 要学习j2ee就要先学习j2se,刚开始学习j2se先建议不要使用IDE,然后渐渐的过渡到使用IDE开发,毕竟用它方便嘛。学习j2se推荐两本书,《java2核心技术一二卷》,《java程式设计思想》,《java模式》。其中《java程式设计思想》要研读,精读。这一段时间是基本功学习,时间会很长,也可能很短,这要看学习者自身水平而定。 不要被IDE纠缠在学习java和j2ee过程中,你会遇到五花八门的IDE,不要被他们迷惑,学JAVA的时候,要学语言本身的东西,不要太在意IDE的附加功能,JAVA程式设计在不同IDE之间的转换是很容易的,过于的在意IDE的功能反而容易耽误对语言本身的理解。目前流行的IDE有jbuilder,eclipse和eclipse的加强版WSAD。用好其中一个就可以了,推荐从eclipse入手j2ee。因为Jbuilder更适合于写j2se程式。 选择和学习伺服器使用配置当你有了j2se和IDE的经验时,可以开始j2ee的学习了,web伺服器:tomcat,勿庸置疑,tomcat为学习web服务首选。而应用伺服器目前主要有三个:jboss、weblogic、websphere。有很多专案开始采用jboss,并且有大量的公司开始做websphere或weblogic向jboss应用伺服器的移植(节省成本),这里要说的是,学习tomcat和jboss我认为是首选,也是最容易上手的。学习伺服器使用配置最好去询问有经验的人(有条件的话),因为他们或许一句话就能解决问题,你自己上网摸索可能要一两天(我就干过这种傻事),我们应该把主要时间放在学习原理和理论上,一项特定技术的使用永远代替不了一个人的知识和学问。 学习web知识如果你是在做电子商务网站等时,你可能要充当几个角色,这是你还要学习: ,可能要用到dreamwave等IDE。 Javascript,学会简单的资料校验,资料联动显示等等 J2eeAPI学习学习j2eeAPI和学习伺服器应该是一个迭代的过程。先学习jsp和servlet程式设计,这方面的书很多,我建立看oreilly公司的两本《jsp设计》和《java servlet程式设计》,oreilly出的书总是那本优秀,不得不佩服。学习jdbc资料库程式设计,j2ee专案大多都是MIS系统,访问资料库是核心。这本应属于j2se学习中,这里拿出来强调一下。学习jndi api,它和学习ejb可以结合起来。学习ejb api,推荐书《精通ejb》经过上面的这些的学习,大概可以对付一般的应用了。有人说跟着sun公司的《j2ee tutorial》一路学下来,当然也可以。 学习ejb设计模式和看程式码(最重要)设计模式是练内功,其重要性可以这么说吧,如果你不会用设计模式的话,你将写出一堆使用了ejb的垃圾,有慢又是一堆bug,其结果不如不用ejb实现(ejb不等于j2ee)无论学习什么语言,都应该看大量程式码,你看的程式码量不到一定数量,是学不好j2ee的目前有很多开源的工程可以作为教材: jive论坛 petstore sun公司 dune sun公司等等,研读一个,并把它用到自己的工程中来。 J2ee其他学习当你渐渐对j2ee了解到一定深度时,你要开始关注当前领域中的一些技术变化,J2ee是一块百家争鸣的领域,大家都在这里提出自己的解决方案,例如structs,hiberate,ofbiz等等,学习这些东西要你的专案和目标而定,预先补充一下未尝不可,但不用涉及太深,毕竟学习原理和理论是最最重要的事。 目前常见j2eeAPI JavaServer Pages(JSP)技术1.2 Java Servlet技术2.3 JDBC API 2.0 Java XML处理API(JAXP)1.1 Enterprise JavaBeans技术2.0 Java讯息服务(JMS)1.0 Java命名目录介面(JNDI)1.2 Java事务API(JTA) 1.0 JavaMail API 1.2 JavaBeans启用架构(JAF)1.0 J2EE联结器体系结构(JCA)1.0 Java认证和授权服务(JAAS)1.0 学习上面的某些API要以你的专案而定,了解所有他们总之是有好处的上面印证了大家说的一句话,java语言本身不难学,但是技术太多,所以学java很费劲。回想一下,基本上每个初学者,在刚学习java的时候可能都会问别人这么一句话,你怎么知道的哪个方法(api)在哪个包里的?呵呵,无他,唯手熟尔。

一般分为四个学习阶段,

第一阶段:小型桌面应用开发

阶段目的:掌握JAVA语言的语法,理解面向物件的程式设计思想,能够熟练使用JAVA语言开发小型桌面应用。

基础技能训练:作业系统与网路技术、JAVA面向功能物件程式设计、JAVA核心程式设计、JAVA网路程式设计

第二阶段:中小型网站应用开发

阶段目的:掌握资料库设计与开发技能,熟练使用JAVAEE元件技术开发中小型网站应用。

资料库(Oracle资料库管理及开发)、UI开发(WEB页面开发基础、XML、Ajax)、JAVAEE元件开发(jsp、servlet、jdbc)、框架技术(struts2.0、hibernate、spring、springMVC、mybatis)

第三阶段:软体工程工业实践

阶段目的:熟悉软体工程流程及规范,使用以前三个阶段所学的技能,进行软体工程工业实践。

软体工程方法论、软体工程专案实践

第四阶段:职业素质培养及就业

阶段目的:提高团队协作能力、职业道德、沟通能力和面试技巧,成功面试,成为标准IT职业人。

职业素质培养(职业道德、专案经理座谈、面试技能)、就业。

学java开发都需要学那些东西?

java分初级中级高阶三个阶段

初级学的是基础知识,包括IO流,集合,封装,继承,多型,抽象,介面等等零散又多的知识。

中级阶段会学习一些技术框架,js,jquery,jdbc,解析xml,,jsp等等,前后台的东西(前台是页面,后台是java程式码)

高阶阶段会学习框架,典型的三大框架必学的(Struts2,hibernate,spring),还有springMVC,Mybaties(ibaties),框架只是减少你的程式码量,更加方便,业务逻辑还是要自己写的。还有框架的整合SSH(struts2+hibernate+spring),SSM(spring+springMVC+mbaties)

PS:在学习高阶之前,你可能觉得初级和中级的东西没啥用,因为你还没有用到,学完框架以后就会用到了。

做JAVA开发需要学什么课程.

第一阶段:Java语言基础

Java语言基础

1、面向物件思维JAVASE

2、(类载入机制与反射,annotation,泛型,网路程式设计,多执行绪,IO,异常处理,常用API,面向物件,JAVA程式设计基础)

3、Java8新特性

第二阶段:资料库

JAVA战狼班 资料库

1、Oracle(SQL语句、SQL语句原理、SQL语句优化、表、检视

2、序列、索引、Oracle资料字典、Oracle 资料库PL/SQL开发

3、资料库设计原则、 MySQL 、 JDBC

兄弟连JAVA战狼班第三阶段:Web基础

Web基础

1、HTML5(H5)基本文件结构、连结、列表、表格、表单

2、CSS 基础语法、盒子模型、浮动布局、定位

3、JavaScript语言基础、DOM 程式设计、事件模型等),JQuery,AJAX框架,XML,BootStrap元件

第四阶段:Java Web技术和主流框架

Java Web技术和主流框架

1、JSP&Servlet、struts2,hibernate4,spring4,JPA,maven

2、SpringData,SpringMVC,MyBatis,SpringSecurity,shiro,Nginx

第五阶段:Linux

Linux

1、Linux安装、熟悉Linux的基础命令、vi编辑器的使用、awk和sed命令使用、使用者和组

2、档案及目录许可权管理、使用ACL进行高阶访问控制、网路配置和软体包安装、启动流程和服务管理

3、系统监控和日志管理、程序管理和计划任务、ssh远端登入、shell基础和shell指令码。

第六阶段:大资料技术(Hadoop和Spark)

大资料技术(Hadoop和Spark)

1、Hadoop (Hadoop基础和环境搭建,HDFS体系结构,MapReduce;Hadoop的丛集模式、HDFS联盟,利用ZooKeeper来实现Hadoop丛集的HA(高可用性)功能

2、Yarn的任务排程机制,Apache Hive,Pig资料处理,整合Hadoop和Sqoop

3、Flume以及Apache Kafka来实现资料的交换,安装部署HBase,Storm)

4、Scala 语言(Scala环境搭建、Scala基础语法、模式匹配、过载与构造器、Map与reduce、元组、继承、StringContext,Option Some None,Tuple;集合方法和运算,future 物件同步处理和非同步处理返回结果)

5、Spark(Spark搭建,Spark-shell 的使用,Spark-submit 提交应用, Spark的核心设计和实现,并对核心中的实现架构、执行原理进行详细的讲解;Spark生态体系中的各个元件,包括:Spark Core,Shark,Spark SQL和Spark Streaming等等)

第七阶段:专案

专案

1、China-UCSP 专案 SSM(Spring+SpringMVC+MyBatis)

2、使用者关系管理系统 S2SH+Maven+Nodejs+MySQL技术实战开发

3、电子商务交易平台 S2SH+Maven+Shiro+Oracle

Java语言程式设计、C/C++/C#程式设计、资料结构、网页设计与制作、资料库原理与应用、J2EE/.Net软体架构、Oracle资料库、软体测试、IT专案管理、软体工程与实践。

学ios开发都需要学什么东西?

首先是它的开发语言Objective-C,它是C的超集,支援面向物件程式设计,是最早的面向物件语言之一。做iPhone or iPad开发,不免会用到各种控制元件,需要对这些控制元件的用法做到灵活运用。这些控制元件基本上都来自于UIKit.framework.如果想要设计出可重用性,可扩充套件性的应用的话,还需要对程式设计思想及面向物件程式设计要有所了解。

下面对集中部署模式进行详细介绍

该模式运行任务不会提交在集群中,只在本节点执行,有两种情况

运行该模式非常简单,只需要把Spark的安装包解压后,改一些常用的配置即可使用,而不用启动Spark的Master、Worker守护进程( 只有集群的Standalone方式时,才需要这两个角色),也不用启动Hadoop的各服务(除非你要用到HDFS)。

Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地单机模式分三类:

搭建步骤:

(中间有报错:raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace)

pyspark.sql.utils.IllegalArgumentException: u'Unable to locate hive jars to connect to metastore. Please set spark.sql.hive.metastore.jars.',网上提示查看jdk版本,发现ubuntu 18.04默认是openjdk-11-jdk包(java -version提示10.0.1)。重新安装openjdk-8-jdk版本不报错)

运行:

使用spark-shell、spark-submit、pyspark

例如使用spark-shell:

local:单机、单核运行

local[k]:启动k个executor

local[ ]:启动跟cpu数目相同的 executor*

上述情况中,local[N]与local[*]相当于用单机的多个线程来模拟spark分布式计算,通常用来检验开发出来的程序逻辑上有没有问题。

其中N代表可以使用N个线程,每个线程拥有一个core。

这些任务的线程,共享在一个进程中,可以开到,在程序的执行过程中只会产生一个进程,这个进程揽下了所有的任务,既是客户提交任务的client进程,又是spark的driver程序,还是spark执行task的executor

这种运行模式,和Local[N]很像,不同的是,它会在单机启动多个进程来模拟集群下的分布式场景,而不像Local[N]这种多个线程只能在一个进程下委屈求全的共享资源。通常也是用来验证开发出来的应用程序逻辑上有没有问题,或者想使用Spark的计算框架而没有太多资源。

用法:提交应用程序时使用local-cluster[x,y,z]参数:x代表要生成的executor数,y和z分别代表每个executor所拥有的core和memory数。

上面这条命令代表会使用2个executor进程,每个进程分配3个core和1G的内存,来运行应用程序。可以看到,在程序执行过程中,会生成如下几个进程: