Spark单机模式部署_Linux系统教程

Spark是继Hadoop之后的新一代大数据分布式处理框架，由UC Berkeley的Matei Zaharia主导开发。

操作在Ubuntu 15.04进行，JDK版本1.8，Hadoop版本2.6，Scala版本2.11.7

1、Scala的安装

Spark基于Scala语言编写，在安装Spark前应先安装Scala语言。当前版本为2.11.7。

Ubuntu软件中心中已经包括Scala，可以直接从软件中心安装，或直接输入命令

sudo apt-get install scala

此处仍采用从官网下载压缩包后手动安装。

安装包下载完毕后解压到安装文件夹。

tar -zxvf scala-2.11.7.tgz -C /usr/scala

解压完毕后需配置环境变量。通过gedit或vi编辑器进行。

sudo gedit /etc/profile

在结尾输入

export SCALA_HOME=/usr/scala/scala-2.11.7

export PATH=$PATH:$SCALA_HOME/bin

执行文件# ./etc/profile，以立即启动配置

验证Scala

输入命令scala -version，应显示版本信息

Spark单机模式部署

Scala版本

输入Scala启动Scala，可进行验证

Spark单机模式部署

验证，程序为1*2=?

2.安装Spark

Scala安装完毕后可以开始安装Spark。

Spark可以从官网或Github获取。得到压缩包后解压至安装目录。

tar -zxvf spark.1.5.0-bin-hadoop2.6.tgz -C /usr/spark

配置Spark环境变量

单机运行此步骤可省略。打开/etc/profile文件，结尾添加

export SPARK_HOME=/usr/spark/spark-1.5.0-bin-hadoop2.6

export PATH=$PATH:$SPARK_HOME/bin

（注：在集群配置时此步骤至关重要，需要指定Master节点的IP等信息）

为方便访问此处可为当前用户赋予Spark目录权限

sudo chown -hR cheng /usr/spark （绿色部分为安装的当前用户的用户名）。

配置完毕后可启动Spark。

将当前目录定位到Spark目录下的sbin目录中。

输入./start-all.sh启动Spark。

可在浏览器中输入http://localhost:8080浏览当前节点运行情况。

输入./stop-all.sh结束Spark。

CentOS 6.2（64位）下安装Spark0.8.0详细记录：http://www.linuxdiyf.com/linux/10651.html

Spark单机模式部署