红联Linux门户
Linux帮助

Spark单机模式部署

发布时间:2015-10-15 15:59:46来源:linux网站作者:j-10cc

Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。

操作在Ubuntu 15.04进行,JDK版本1.8,Hadoop版本2.6,Scala版本2.11.7


1、Scala的安装

Spark基于Scala语言编写,在安装Spark前应先安装Scala语言。当前版本为2.11.7。

Ubuntu软件中心中已经包括Scala,可以直接从软件中心安装,或直接输入命令

sudo apt-get install scala

此处仍采用从官网下载压缩包后手动安装。

安装包下载完毕后解压到安装文件夹。

tar -zxvf scala-2.11.7.tgz -C /usr/scala

解压完毕后需配置环境变量。通过gedit或vi编辑器进行。

sudo gedit /etc/profile

在结尾输入

export SCALA_HOME=/usr/scala/scala-2.11.7

export PATH=$PATH:$SCALA_HOME/bin

执行文件# ./etc/profile,以立即启动配置

验证Scala

输入命令scala -version,应显示版本信息

Spark单机模式部署

Scala版本

输入Scala启动Scala,可进行验证

Spark单机模式部署

验证,程序为1*2=?


2.安装Spark

Scala安装完毕后可以开始安装Spark。

Spark可以从官网或Github获取。得到压缩包后解压至安装目录。

tar -zxvf spark.1.5.0-bin-hadoop2.6.tgz -C /usr/spark

配置Spark环境变量

单机运行此步骤可省略。打开/etc/profile文件,结尾添加

export SPARK_HOME=/usr/spark/spark-1.5.0-bin-hadoop2.6

export PATH=$PATH:$SPARK_HOME/bin

(注:在集群配置时此步骤至关重要,需要指定Master节点的IP等信息)

为方便访问此处可为当前用户赋予Spark目录权限

sudo  chown  -hR  cheng  /usr/spark (绿色部分为安装的当前用户的用户名)。

配置完毕后可启动Spark。

将当前目录定位到Spark目录下的sbin目录中。

输入./start-all.sh启动Spark。

可在浏览器中输入http://localhost:8080浏览当前节点运行情况。

输入./stop-all.sh结束Spark。


CentOS 6.2(64位)下安装Spark0.8.0详细记录:http://www.linuxdiyf.com/linux/10651.html

Spark搭建环境涉及的Linux命令:http://www.linuxdiyf.com/linux/10244.html

Spark源码包的编译:http://www.linuxdiyf.com/linux/7026.html