Giunsa ang Pag-install ug Pag-setup sa Apache Spark sa Ubuntu/Debian


Ang Apache Spark usa ka open-source nga gipang-apod-apod nga computational framework nga gimugna aron makahatag og mas paspas nga computational nga mga resulta. Kini usa ka in-memory computational engine, nagpasabut nga ang datos iproseso sa memorya.

Gisuportahan sa Spark ang lainlaing mga API alang sa streaming, pagproseso sa graph, SQL, MLLib. Gisuportahan usab niini ang Java, Python, Scala, ug R isip gusto nga mga pinulongan. Ang Spark kasagarang na-install sa Hadoop clusters apan mahimo usab nimo nga i-install ug i-configure ang spark sa standalone mode.

Niini nga artikulo, atong makita kung giunsa ang pag-install sa Apache Spark sa Debian ug mga distribusyon nga nakabase sa Ubuntu.

I-install ang Java ug Scala sa Ubuntu

Aron ma-install ang Apache Spark sa Ubuntu, kinahanglan nimo nga ma-install ang Java ug Scala sa imong makina. Kadaghanan sa mga modernong distribusyon moabut uban ang Java nga gi-install sa default ug mahimo nimo kini mapamatud-an gamit ang mosunud nga mando.

$ java -version

Kung walay output, mahimo nimong i-install ang Java gamit ang among artikulo kung giunsa ang pag-install sa Java sa Ubuntu o padaganon lang ang mosunod nga mga mando aron ma-install ang Java sa mga distribusyon nga nakabase sa Ubuntu ug Debian.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Sunod, mahimo nimong i-install ang Scala gikan sa apt repository pinaagi sa pagpadagan sa mosunud nga mga mando aron pangitaon ang scala ug i-install kini.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Aron mapamatud-an ang pag-instalar sa Scala, padagana ang mosunod nga sugo.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

I-install ang Apache Spark sa Ubuntu

Karon adto sa opisyal nga wget command aron i-download ang file direkta sa terminal.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Karon ablihi ang imong terminal ug ibalhin sa kung asa ibutang ang imong na-download nga file ug padagana ang mosunod nga sugo aron makuha ang Apache Spark tar file.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Sa katapusan, ibalhin ang gikuha nga Spark directory sa /opt directory.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

I-configure ang Environmental Variables para sa Spark

Karon kinahanglan nimong itakda ang pipila ka mga variable sa kalikopan sa imong .profile file sa dili pa magsugod ang spark.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Aron masiguro nga kining bag-ong mga variable sa palibot maabot sa sulod sa kabhang ug magamit sa Apache Spark, kinahanglan usab nga ipadagan ang mosunud nga mando aron mahimo ang bag-ong mga pagbag-o sa epekto.

$ source ~/.profile

Ang tanan nga mga binary nga may kalabutan sa spark aron magsugod ug mohunong sa mga serbisyo naa sa ilawom sa sbin folder.

$ ls -l /opt/spark

Sugdi ang Apache Spark sa Ubuntu

Pagdalagan ang mosunod nga sugo aron masugdan ang Spark master service ug slave service.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

Kung nagsugod na ang serbisyo adto sa browser ug i-type ang mosunud nga panid sa pag-access sa URL. Gikan sa panid, makita nimo nga gisugdan ang serbisyo sa akong agalon ug ulipon.

http://localhost:8080/
OR
http://127.0.0.1:8080

Mahimo usab nimo nga susihon kung maayo ba ang spark-shell pinaagi sa paglansad sa spark-shell command.

$ spark-shell

Mao kana alang niini nga artikulo. Dakpon ka namo sa laing makapaikag nga artikulo sa dili madugay.