云网牛站
所在位置:首页 > Linux云服务器 > 在Ubuntu 18.04/Debian 9上安装Apache Spark的方法

在Ubuntu 18.04/Debian 9上安装Apache Spark的方法

2019-04-26 10:13:53作者:牛赢稿源:云网牛站

本文介绍在Ubuntu 18.04/Debian 9操作系统上安装Apache Spark的方法:操作步骤为安装Java、下载解压缩Apache Spark和设置Spark环境、启动独立主服务器、启动Spark Worker进程、使用Spark shell。Spark是一款开源的分布式通用集群计算框架,一种快速统一的分析引擎,用于大数据和机器学习处理。Spark提供Java、Scala、Python和R中的高级API,以及支持通用执行图的优化引擎,它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和Spark Streaming。在安装之前,建议先更新Ubuntu 18.04/Debian 9系统,运行sudo apt update和sudo apt -y upgrade命令即可。

 

一、安装Java

Apache Spark要求Java运行,让我们确保在我们的Ubuntu/Debian系统上安装了Java。

最简单的方法是运行以下命令:

sudo apt install default-jdk

参考:在Ubuntu 19.04/18.04/16.04上安装Java 12的方法

使用以下命令验证Java版本:

java -version

如果是安装Java 8,在Ubuntu 18.04上运行以下命令:

对于Ubuntu 18.04上的Java 8:

sudo apt update

sudo add-apt-repository ppa:webupd8team/java

sudo apt update

sudo apt install oracle-java8-installer oracle-java8-set-default

注:如果缺少add-apt-repository命令,参考Ubuntu 18.04/16.04/Debian 9上安装add-apt-repository的方法

 

二、下载、解压缩Apache Spark和设置Spark环境

1、下载、解压缩Apache Spark

Apache Spark项目主页中下载Apache Spark安装文件,这次下载的是2.4.2版本:

curl -O https://www-us.apache.org/dist/spark/spark-2.4.2/spark-2.4.2-bin-hadoop2.7.tgz

解压缩Spark tarball:

tar xvf spark-2.4.2-bin-hadoop2.7.tgz

将提取后创建的Spark文件夹移动到/opt/目录:

sudo mv spark-2.4.2-bin-hadoop2.7/ /opt/spark

2、设置Spark环境

打开bashrc配置文件:

vim ~/.bashrc

增加以下行:

export SPARK_HOME=/opt/spark

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

激活更改:

source ~/.bashrc

 

三、启动独立主服务器

现在可以使用start-master.sh命令启动独立主服务器:

# start-master.sh 

starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-ubuntu.out

该进程将侦听8080 TCP端口:

# ss -tunelp | grep 8080

tcp LISTEN 0 1 *:8080 *:* users:(("java",pid=8033,fd=238)) ino:41613 sk:5 v6only:0 <->

Web UI如下所示:

在Ubuntu 18.04/Debian 9上安装Apache Spark的方法

注:如上所示,我的Spark URL是spark://ubuntu:7077。

 

四、启动Spark Worker进程

start-slave.sh命令用于启动Spark Worker Process:

$ start-slave.sh spark://ubuntu:7077

starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-ubuntu.out

如果你的$PATH中没有脚本,你可以先找到它:

$ locate start-slave.sh

/opt/spark/sbin/start-slave.sh

还可以使用绝对路径来运行脚本。

 

五、使用Spark shell

使用spark-shell命令访问Spark Shell:

# /opt/spark/bin/spark-shell

在Ubuntu 18.04/Debian 9上安装Apache Spark的方法

如果是Python,请使用pyspark:  

# /opt/spark/bin/pyspark

在Ubuntu 18.04/Debian 9上安装Apache Spark的方法

使用以下命令关闭主从Spark进程:

$ SPARK_HOME/sbin/stop-slave.sh

$ SPARK_HOME/sbin/stop-master.sh

至此,安装Spark顺利完成,已测试成功。

 

相关主题

在Ubuntu 18.04服务器上安装LAMP Stack的方法[Apache、MySQL、PHP]

精选文章
热门文章