红联Linux门户
Linux帮助

阿里云实现Hadoop+Spark集群

发布时间:2017-10-16 09:14:21来源:linux网站作者:vlions
准备工作
在master节点和worker节点中进行搭建。
 
第一步下载Spark并解压到software目录中
wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz 
tar zxvf spark-2.2.0-bin-hadoop2.7.tg software/
 
第二步配置scala环境,因为后面准备用scala进行开发
下载scala
wget https://downloads.lightbend.com/scala/2.12.3/scala-2.12.3.tgz
解压scala压缩包到software
tar zxvf scala-2.12.3.tgz software/
 
第三步配置/etc/profile
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export JRE_HOME=$JAVA_HOME/jre
export HADOOP_HOME=/root/software/hadoop-2.8.1
export SCALA_HOME=/root/software/scala-2.12.3
export SPARK_HOME=/root/software/spark-2.2.0-bin-hadoop2.7
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$PATH
立即生效:source /etc/profile
 
第四步配置spark/conf/slaves
1.cp slaves.template slaves
2.vim slaves 添加worker
worker1
 
第五步配置spark/conf/spark-env.sh文件
1.cp spark-env.sh.template spark-env.sh
2.vim spark-env.sh 添加如下内容
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export JRE_HOME=$JAVA_HOME/jre
export SCALA_HOME=/root/software/scala-2.12.3
export HADOOP_HOME=/root/software/hadoop-2.8.1
export SPARK_DIST_CLASSPATH=$(/root/software/hadoop-2.8.1/bin/hadoop classpath)
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_IP=master
至此master中的Spark环境久搭建好了,下面我们来开启Spark。
进入到Spark中的sbin目录下,执行start-all.sh开启Spark
cd /root/software/spark-2.2.0-bin-hadoop2.7/sbin
./start-all.sh 这条命令相当于先执行./start-master.sh,在执行./start-slaves.sh
此时能在master中使用jps看到下图,Master已经开启了:
阿里云实现Hadoop+Spark集群
在worker中使用jps应该能看到worker已经开启了,如下图:
阿里云实现Hadoop+Spark集群
看到上面两个图,表示你的Spark集群已经搭建好了,接下来告诉大家如何查看Spark的Web控制台。很多网上的教程都会在最后在浏览器中输入http://master:4040
打开Spark的Web控制器,粘一张Spark Web页面的图,但是只通过上面的步骤,是不能打开的Web控制的页面。正确的姿势如下:
cd /root/software/spark-2.2.0-bin-hadoop2.7/bin
./spark-shell.sh
之后才能在浏览器中输入http://master:4040 才能看到如下的Web控制页面
阿里云实现Hadoop+Spark集群
为什么之前看不到呢?那是因为web控制器只在Spark提交job的时候才会显示,使用./spark-shell.sh进入到Spark提交job的状态,如下:
阿里云实现Hadoop+Spark集群
 
接下来,大家就可以愉快的玩耍Spark集群了。
 
本文永久更新地址:http://www.linuxdiyf.com/linux/32799.html