要安装和配置好spark,首先需要有JAVA环境,因为Spark是运行在JVM上的。但ubuntu 上的java默认是openjdk,我们需要自己下载安装和配置OracleJDK。而要用spark的python API,则要有python解释器,但是这个ubuntu里面已经自带了。所以配置spark的步骤大致如下:
(1)环境准备,安装oracleJDK,配置java和python环境变量
(2)安装scala(如果不使用scala开发,是否这一步可不用?)
(3)安装spark,配置spark环境变量
(4)验证安装情况
1.环境准备
安装Oracle JDK,到Oracle 官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载64位linux版的安装包jdk-8u77-linux-x64.tar.gz,
进入下载文件夹,将下载的安装包放到特定目录下:
sudo cp jdk-8u77-linux-x64.tar.gz /opt/
进入该文件夹中,解压安装包
cd /opt/
sudo tar -xf jdk-8u77-linux-x64.tar.gz
配置环境变量,打开/etc/environment或者/etc/profile。(/etc/environment是设置整个系统的环境,而/etc/profile是设置所有用户的环境,前者与登录用户无关,后者与登录用户有关。)
sudo gedit /etc/environment
添加如下命令,保存:
#java environment
JAVA_HOME=/opt/jdk1.8.0_77
RE_HOME=${JAVA_HOME}/jre
CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH
2.安装和配置scala,这里不讲
3.安装和配置spark
到官网https://spark.apache.org/downloads.html下载较新的的spark版本spark-1.6.1-bin-hadoop2.6.tgz(http://www.apache.org/dyn/closer.lua/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz),同样将其复制到/opt/文件夹中,解压,然后在/etc/environment文件中添加以下命令:
#spark environment
SPARK_HOME=/opt/spark-1.6.1-bin-hadoop2.6
PATH=$PATH:${SPARK_HOME}/bin
因为想要用python接口来使用spark,所以在里面设置python的环境变量:
#python environment
PYTHONPATH=/opt/spark-1.6.1-bin-hadoop2.6/python
PATH=$PATH:${PYTHONPATH}
最后,使配置文件生效:
source /etc/environment
4.验证安装情况
转到spark的文件夹路径,调用pyspark,出现下面图片所示页面即可:
./bin/pyspark
在网上看到其他人的说法将Python-》build文件夹下py4j,复至到spark 目录的Python目录下后可以直接在python解释器中import pyspark,但是下载的spark安装包里并没有这个文件夹,所以在python中直接导入pyspark会提示找不到这个包。不过通过Spark目录下的bin/spark-submit脚本你可以在Python中运行Spark应用。这个脚本会载入Spark的Java/Scala库然后让你将应用提交到集群中。或者你可以像上面一样执行bin/pyspark来打开Python的交互命令行。