64位UBUNTU下安装和配置使用python的spark_Linux系统教程

要安装和配置好spark，首先需要有JAVA环境，因为Spark是运行在JVM上的。但ubuntu 上的java默认是openjdk，我们需要自己下载安装和配置OracleJDK。而要用spark的python API，则要有python解释器，但是这个ubuntu里面已经自带了。所以配置spark的步骤大致如下：

（1）环境准备，安装oracleJDK，配置java和python环境变量
（2）安装scala（如果不使用scala开发，是否这一步可不用？）
（3）安装spark，配置spark环境变量
（4）验证安装情况

1.环境准备

安装Oracle JDK，到Oracle 官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载64位linux版的安装包jdk-8u77-linux-x64.tar.gz，

进入下载文件夹，将下载的安装包放到特定目录下：

sudo cp jdk-8u77-linux-x64.tar.gz /opt/

进入该文件夹中,解压安装包

cd /opt/

sudo tar -xf jdk-8u77-linux-x64.tar.gz

配置环境变量，打开/etc/environment或者/etc/profile。（/etc/environment是设置整个系统的环境，而/etc/profile是设置所有用户的环境，前者与登录用户无关，后者与登录用户有关。）
sudo gedit /etc/environment

添加如下命令，保存：

#java environment
JAVA_HOME=/opt/jdk1.8.0_77
RE_HOME=${JAVA_HOME}/jre
CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH

2.安装和配置scala，这里不讲

3.安装和配置spark

到官网https://spark.apache.org/downloads.html下载较新的的spark版本spark-1.6.1-bin-hadoop2.6.tgz（http://www.apache.org/dyn/closer.lua/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz），同样将其复制到/opt/文件夹中，解压，然后在/etc/environment文件中添加以下命令：

#spark environment
SPARK_HOME=/opt/spark-1.6.1-bin-hadoop2.6
PATH=$PATH:${SPARK_HOME}/bin

因为想要用python接口来使用spark，所以在里面设置python的环境变量：

#python environment
PYTHONPATH=/opt/spark-1.6.1-bin-hadoop2.6/python
PATH=$PATH:${PYTHONPATH}

最后，使配置文件生效：

source /etc/environment

4.验证安装情况

转到spark的文件夹路径，调用pyspark，出现下面图片所示页面即可:

./bin/pyspark

在网上看到其他人的说法将Python-》build文件夹下py4j,复至到spark 目录的Python目录下后可以直接在python解释器中import pyspark,但是下载的spark安装包里并没有这个文件夹，所以在python中直接导入pyspark会提示找不到这个包。不过通过Spark目录下的bin/spark-submit脚本你可以在Python中运行Spark应用。这个脚本会载入Spark的Java/Scala库然后让你将应用提交到集群中。或者你可以像上面一样执行bin/pyspark来打开Python的交互命令行。

本文永久更新地址：http://www.linuxdiyf.com/linux/19802.html

64位UBUNTU下安装和配置使用python的spark

频道文章

网站推荐文章

推荐教程

热点推荐