最新发布

# 2023-02-09
华为手机开机显示Harmony OS怎么解决
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
magicos和鸿蒙os区别
magicos和鸿蒙os区别：两者定位不同，技术架构不同。两者定位不同：HarmonyOS旨在替换安卓、最终实现跨平台多设备分布式操作。MagicOS则是在安卓系统、Windows系统以及其它操作系统上叠加荣耀的核心能力，从而让不同生态实
# 2023-02-09
极客简报｜华为跌倒苹果吃饱；HarmonyOS 用户破亿
本周苹果召开新品发布会，iPhone 13 系列、iPad 9、iPad mini 6 以及 Apple Watch Series 7 正式亮相，大多数产品已于本周开卖，最快 9 月 24 日即可到手。极客之选
# 2023-02-09
harmonyos忘记密码如何解锁？
如果您确认遗忘自己的手机密码需要解锁，我们可以帮助您将手机强制恢复出厂设置。但是手机中的数据也会被清除，且无法恢复，建议您再回忆一下是否通过云备份或其他方式备份过手机数据。也建议您再仔细回忆一下是否自己设置修改了密码，如果确定无法回忆起密
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
华为三款新机上市：预装HarmonyOS系统，但不支持5G，3699元起
大家都知道现在的手机市场主要还以5G手机为主，但深受芯片限制的华为也不得不再把4G手机拿出来“炒冷饭”。今日零点，华为多款4G新机正式开售，分别是华为Mate40 Pro 4G、Mate40E 4G以及nova8 Pro 4G。在5G
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
4月27日华为正式推送鸿蒙系统升级。鸿蒙OS系统你真的了解吗？
4月27日晚，华为向部分机型推送了鸿蒙0S系统小规模公测升级，据可靠消息称，华为将在6月推送大规模正式公测升级。很多人收到了华为Harmony OS的推送，根据各个机型的不同，更新包大小也不相同，有的是2.87 GB，有
# 2023-02-09
HarmonyOs 网络安全配置，允许应用使用明文流量传输
"deviceConfig": { "default": { "process": "xxx", "directLaunch":
# 2023-02-09
HarmonyOS——Ability和AbilitySlice生命周期(一)
HarmonyOS 中的页面会用到Ability和AbilitySlice。Ability是提供与用户交互的能力。AbilitySlice是一个页面及其逻辑的总和。两者的关系可以是一对多。也就是一个Ability中可以包含多个不同的A

如何用Python写spark

2023-02-23 09:20:02Python011

如何用Python写spark,第1张

1.RDD是PariRDD类型

def add1(line):

return line[0] + line[1]

def add2(x1,x2):

return x1 + x2

sc = SparkContext(appName="gridAnalyse")

rdd = sc.parallelize([1,2,3])

list1 = rdd.map(lambda line: (line,1)).map(lambda (x1,x2) : x1 + x2).collect() #只有一个参数，通过匹配来直接获取（赋值给里面对应位置的变量）

list1 = rdd.map(lambda line: (line,1)).map(lambda x1,x2 : x1 + x2).collect() #错误，相当于函数有两个参数

list2 = rdd.map(lambda line: (line,1)).map(lambda line : line[0] + line[1]).collect() #只有一个参数，参数是Tuple或List数据类型，再从集合的对应位置取出数据

list3 = rdd.map(lambda line: (line,1)).map(add1).collect() #传递函数，将Tuple或List类型数据传给形参

list4 = rdd.map(lambda line: (line,1)).map(add2).collect() #错误，因为输入只有一个，却有两个形参

当RDD是PairRDD时，map中可以写lambda表达式和传入一个函数。

a、写lambda表达式：

可以通过(x1,x2,x3)来匹配获取值；或者使用line获取集合，然后从集合中获取。

b、传入函数

根据spark具体的transaction OR action 操作来确定自定义函数参数的个数，此例子中只有一个参数，从形参（集合类型）中获取相应位置的数据。

在ipython中使用spark

说明：

spark 1.6.0

scala 2.10.5

spark安装路径是/usr/local/spark；已经在.bashrc中配置了SPARK_HOME环境变量。

方法一

/usr/local/Spark/bin/pyspark默认打开的是Python，而不是ipython。通过在pyspark文件中添加一行，来使用ipython打开。

cp pyspark ipyspark

vi ipyspark

# 在最前面添加

IPYTHON=1

# 启动

ipyspark

方法二：

通过为spark创建一个ipython 配置的方式实现。

# 为spark创建一个ipython 配置

ipython profile create spark

# 创建启动配置文件

cd ~/.config/ipython/profile_spark/startup

vi 00-pyspark-setup.py

在00-pyspark-setup.py中添加如下内容：

import os

import sys

# Configure the environment

if 'SPARK_HOME' not in os.environ:

os.environ['SPARK_HOME'] = '/srv/spark'

# Create a variable for our root path

SPARK_HOME = os.environ['SPARK_HOME']

# Add the PySpark/py4j to the Python Path

sys.path.insert(0, os.path.join(SPARK_HOME, "python", "pyspark"))

sys.path.insert(0, os.path.join(SPARK_HOME, "python", "lib", "py4j-0.9-src.zip"))

sys.path.insert(0, os.path.join(SPARK_HOME, "python"))

启动ipython

ipython –profile spark

测试程序

在ipython中输入一下命令，如果下面的程序执行完后输出一个数字，说明正确。

from pyspark import SparkContext

sc = SparkContext( 'local', 'pyspark')

def isprime(n):

"""

check if integer n is a prime

"""

# make sure n is a positive integer

n = abs(int(n))

# 0 and 1 are not primes

if n <2:

return False

# 2 is the only even prime number

if n == 2:

return True

# all other even numbers are not primes

if not n &1:

return False

# for all odd numbers

for x in range(3, int(n**0.5)+1, 2):

if n % x == 0:

return False

return True

# Create an RDD of numbers from 0 to 1,000,000

nums = sc.parallelize(xrange(1000000))

# Compute the number of primes in the RDD

print 逗Result: 地, nums.filter(isprime).count()

方法三

将上面的程序放入test.py文件，执行命令python test.py。发现错误。因为没有将pyspark路径加入PYTHONPATH环境变量。

在~/.bashrc或/etc/profile中添加如下内容:

# python can call pyspark directly

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/pyspark:$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH

执行如下命令：

# 使配置生效

source ~/.bashrc

# 测试程序

python test.py

前段时间使用了一下google的博客空间，感觉也很一般，所以现在把那里的几篇文章转过来。

执行python脚本只需要对python文件做如下操作即可：

在python文件里第一行加上#!

/usr/bin/python，即你的python解释器所在的目录。另外还有一种写法是#!

/usr/bin/env

python

编辑完成python脚本文件后为它加上可执行权限。例如你的python脚本文件叫做runit.py，那么就在shell中输入如下命令：chmod

+x

runit.py

之后直接在shell中输入./runit.py就可以执行你的python程序了。

当然这是在Linux下的操作，如果想在windows下直接执行Python程序，就需要使用py2exe工具将python源程序编译成exe文件了。

文件你的只有一个参数程序

# 上一篇：R---plot()参数详解

# 下一篇：java多线程有几种实现方法