本文介绍在Ubuntu 18.04/Debian 9操作系统上安装Apache Spark的方法:操作步骤为安装Java、下载解压缩Apache Spark和设置Spark环境、启动独立主服务器、启动Spark Worker进程、使用Spark shell。Spark是一款开源的分布式通用集群计算框架,一种快速统一的分析引擎,用于大数据和机器学习处理。Spark提供Java、Scala、Python和R中的高级API,以及支持通用执行图的优化引擎,它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和Spark Streaming。在安装之前,建议先更新Ubuntu 18.04/Debian 9系统,运行sudo apt update和sudo apt -y upgrade命令即可。
一、安装Java Apache Spark要求Java运行,让我们确保在我们的Ubuntu/Debian系统上安装了Java。 最简单的方法是运行以下命令: sudo apt install default-jdk 参考:在Ubuntu 19.04/18.04/16.04上安装Java 12的方法。 使用以下命令验证Java版本: java -version 如果是安装Java 8,在Ubuntu 18.04上运行以下命令: 对于Ubuntu 18.04上的Java 8: sudo apt update sudo add-apt-repository ppa:webupd8team/java sudo apt update sudo apt install oracle-java8-installer oracle-java8-set-default 注:如果缺少add-apt-repository命令,参考Ubuntu 18.04/16.04/Debian 9上安装add-apt-repository的方法。
二、下载、解压缩Apache Spark和设置Spark环境 1、下载、解压缩Apache Spark 从Apache Spark项目主页中下载Apache Spark安装文件,这次下载的是2.4.2版本: curl -O https://www-us.apache.org/dist/spark/spark-2.4.2/spark-2.4.2-bin-hadoop2.7.tgz 解压缩Spark tarball: tar xvf spark-2.4.2-bin-hadoop2.7.tgz 将提取后创建的Spark文件夹移动到/opt/目录: sudo mv spark-2.4.2-bin-hadoop2.7/ /opt/spark 2、设置Spark环境 打开bashrc配置文件: vim ~/.bashrc 增加以下行: export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin 激活更改: source ~/.bashrc
三、启动独立主服务器 现在可以使用start-master.sh命令启动独立主服务器: # start-master.sh starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-ubuntu.out 该进程将侦听8080 TCP端口: # ss -tunelp | grep 8080 tcp LISTEN 0 1 *:8080 *:* users:(("java",pid=8033,fd=238)) ino:41613 sk:5 v6only:0 <-> Web UI如下所示:
注:如上所示,我的Spark URL是spark://ubuntu:7077。
四、启动Spark Worker进程 start-slave.sh命令用于启动Spark Worker Process: $ start-slave.sh spark://ubuntu:7077 starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-ubuntu.out 如果你的$PATH中没有脚本,你可以先找到它: $ locate start-slave.sh /opt/spark/sbin/start-slave.sh 还可以使用绝对路径来运行脚本。
五、使用Spark shell 使用spark-shell命令访问Spark Shell: # /opt/spark/bin/spark-shell
如果是Python,请使用pyspark: # /opt/spark/bin/pyspark
使用以下命令关闭主从Spark进程: $ SPARK_HOME/sbin/stop-slave.sh $ SPARK_HOME/sbin/stop-master.sh 至此,安装Spark顺利完成,已测试成功。
相关主题 |