最新发布

# 2023-02-09
华为鸿蒙系统支持的中央空调有哪些
华为鸿蒙系统支持的中央空调有美的，日立中央空调等。首款搭载华为鸿蒙系统的智能空调中国尊鸿蒙艺术柜机，已于2021年5月起上市销售，在空调旺季市场上掀起一轮全新的主动智能、新风无风感的智慧新体验。随着美的与华为联手打造的这两大智慧空调操控体验
# 2023-02-09
harmonyos忘记密码如何解锁？
如果您确认遗忘自己的手机密码需要解锁，我们可以帮助您将手机强制恢复出厂设置。但是手机中的数据也会被清除，且无法恢复，建议您再回忆一下是否通过云备份或其他方式备份过手机数据。也建议您再仔细回忆一下是否自己设置修改了密码，如果确定无法回忆起密
# 2023-02-09
HarmonyOs 网络安全配置，允许应用使用明文流量传输
"deviceConfig": { "default": { "process": "xxx", "directLaunch":
# 2023-02-09
harmonyos可以玩原神吗
harmonyos可以玩原神。根据天眼查显示，HarmonyOS2系列，现已推送到多款机型中将正在游玩的《原神》一键从Mate40Pro转到MatePad上。《原神》是由上海米哈游制作发行的一款开放世界冒险游戏。华为于7月12日宣布，H
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
华为harmonyos 3有哪些特性?
华为harmonyos 3的特性：1、HarmonyOS 3体验更安全、更流畅HarmonyOS3系统会进一步打通各个设备之间的协同性，并且在系统性能表现和隐私安全上有所加强。HarmonyOS 3在安全性方面，新增了剪切板隐私保护、模糊
# 2023-02-09
HarmonyOS技术特性
最近,随着华为的一批电子设备升级鸿蒙系统,鸿蒙系统的热度也逐渐升高。这里分享一下鸿蒙系统的定位及底层特性,让人们比较深入的认识一下鸿蒙系统。 HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。
# 2023-02-09
鸿蒙抄袭安卓？看这一篇就够了
01什么是 AOSP ？很多人都说鸿蒙是 AOSP 套壳，那么我们首先得明白什么是 AOSP？ AOSP 是"Android Open Source Project&
# 2023-02-09
华为手机开机显示Harmony OS是什么情况?
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
鸿蒙系统的官网是什么?
鸿蒙系统的官网是Harmonyos.com。华为鸿蒙系统是一款全新的面向全场景的分布式操作系统，创造一个超级虚拟终端互联的世界，将人、设备、场景有机地联系在一起，将消费者在全场景生活中接触的多种智能终端实现极速发现、极速连接、硬件互助、资

如何用Python写spark

2023-02-23 09:20:02Python016

如何用Python写spark,第1张

1.RDD是PariRDD类型

def add1(line):

return line[0] + line[1]

def add2(x1,x2):

return x1 + x2

sc = SparkContext(appName="gridAnalyse")

rdd = sc.parallelize([1,2,3])

list1 = rdd.map(lambda line: (line,1)).map(lambda (x1,x2) : x1 + x2).collect() #只有一个参数，通过匹配来直接获取（赋值给里面对应位置的变量）

list1 = rdd.map(lambda line: (line,1)).map(lambda x1,x2 : x1 + x2).collect() #错误，相当于函数有两个参数

list2 = rdd.map(lambda line: (line,1)).map(lambda line : line[0] + line[1]).collect() #只有一个参数，参数是Tuple或List数据类型，再从集合的对应位置取出数据

list3 = rdd.map(lambda line: (line,1)).map(add1).collect() #传递函数，将Tuple或List类型数据传给形参

list4 = rdd.map(lambda line: (line,1)).map(add2).collect() #错误，因为输入只有一个，却有两个形参

当RDD是PairRDD时，map中可以写lambda表达式和传入一个函数。

a、写lambda表达式：

可以通过(x1,x2,x3)来匹配获取值；或者使用line获取集合，然后从集合中获取。

b、传入函数

根据spark具体的transaction OR action 操作来确定自定义函数参数的个数，此例子中只有一个参数，从形参（集合类型）中获取相应位置的数据。

在ipython中使用spark

说明：

spark 1.6.0

scala 2.10.5

spark安装路径是/usr/local/spark；已经在.bashrc中配置了SPARK_HOME环境变量。

方法一

/usr/local/Spark/bin/pyspark默认打开的是Python，而不是ipython。通过在pyspark文件中添加一行，来使用ipython打开。

cp pyspark ipyspark

vi ipyspark

# 在最前面添加

IPYTHON=1

# 启动

ipyspark

方法二：

通过为spark创建一个ipython 配置的方式实现。

# 为spark创建一个ipython 配置

ipython profile create spark

# 创建启动配置文件

cd ~/.config/ipython/profile_spark/startup

vi 00-pyspark-setup.py

在00-pyspark-setup.py中添加如下内容：

import os

import sys

# Configure the environment

if 'SPARK_HOME' not in os.environ:

os.environ['SPARK_HOME'] = '/srv/spark'

# Create a variable for our root path

SPARK_HOME = os.environ['SPARK_HOME']

# Add the PySpark/py4j to the Python Path

sys.path.insert(0, os.path.join(SPARK_HOME, "python", "pyspark"))

sys.path.insert(0, os.path.join(SPARK_HOME, "python", "lib", "py4j-0.9-src.zip"))

sys.path.insert(0, os.path.join(SPARK_HOME, "python"))

启动ipython

ipython –profile spark

测试程序

在ipython中输入一下命令，如果下面的程序执行完后输出一个数字，说明正确。

from pyspark import SparkContext

sc = SparkContext( 'local', 'pyspark')

def isprime(n):

"""

check if integer n is a prime

"""

# make sure n is a positive integer

n = abs(int(n))

# 0 and 1 are not primes

if n <2:

return False

# 2 is the only even prime number

if n == 2:

return True

# all other even numbers are not primes

if not n &1:

return False

# for all odd numbers

for x in range(3, int(n**0.5)+1, 2):

if n % x == 0:

return False

return True

# Create an RDD of numbers from 0 to 1,000,000

nums = sc.parallelize(xrange(1000000))

# Compute the number of primes in the RDD

print 逗Result: 地, nums.filter(isprime).count()

方法三

将上面的程序放入test.py文件，执行命令python test.py。发现错误。因为没有将pyspark路径加入PYTHONPATH环境变量。

在~/.bashrc或/etc/profile中添加如下内容:

# python can call pyspark directly

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/pyspark:$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH

执行如下命令：

# 使配置生效

source ~/.bashrc

# 测试程序

python test.py

只有一个参数函数程序命令

# 上一篇：ruby 怎么编译成可执行文件

# 下一篇：Go语言怎么样？