Hadoop 及Spark 分佈式HA運行環境搭建

語言: CN / TW / HK

時間 2023-02-22 05:01:13 京東雲開發者

主題:

作者：京東物流秦彪

工欲善其事必先利其器，在深入學習大數據相關技術之前，先手動從0到1搭建一個屬於自己的本地Hadoop和Spark運行環境，對於繼續研究大數據生態圈各類技術具有重要意義。本文旨在站在研發的角度上通過手動實踐搭建運行環境，文中不拖泥帶水過多講述基礎知識，結合Hadoop和Spark最新版本，幫助大家跟着步驟一步步實踐環境搭建。

1. 總體運行環境概覽

（1）軟件包及使用工具版本介紹表：

技術名稱或工具名稱	版本	備註
Hadoop	hadoop-3.3.4.tar.gz
VirtualBox	6.0.0 r127566	虛擬機，推薦
CentOS	centos7.3
JDK	jdk-8u212-linux-x64.tar.gz	1.8.0_111
Zookeeper	zookeeper-3.6.tar.gz
FileZilla	FileZilla_3.34.0	文件傳輸工具，推薦
MobaXterm	MobaXterm_Portable_v10.9	SSH連接工具，推薦
Idea	IDEA COMMUNITY 2019.1.4	代碼IDE開發工具，推薦

（2）環境部署與分佈介紹表：

主機名	IP	運行的進程
master	192.168.0.20	QuorumPeerMain、NameNode、DataNode、ResourceManager、NodeManager、JournalNode、DFSZKFailoverController、Master
slave1	192.168.0.21	QuorumPeerMain、NameNode、DataNode、ResourceManager、NodeManager、JournalNode、DFSZKFailoverController、Master、Worker
slave2	192.168.0.22	QuorumPeerMain、NameNode、DataNode、JournalNode、 NodeManager、Worker

（3）進程介紹：（1表示進程存在，0表示不存在）

進程名	含義	master	slave1	slave2
QuorumPeerMain	ZK進程	1	1	1
NameNode	Hadoop主節點	1	1	0
DataNode	Hadoop數據節點	1	1	1
ResourceManager	Yarn管理進程	1	1	0
NodeManager	Yarn 工作進程	1	1	1
JournalNode	NameNode同步進程	1	1	1
DFSZKFailoverController	NameNode監控進程	1	1	0
Master	Spark主節點	1	1	0
Worker	Spark工作節點	1	1	1

2. 系統基礎環境準備

步驟1：虛擬機中Linux系統安裝（略）

VirtualBox中安裝CentOS7操作系統

步驟2： CentOS7基礎配置

（1）配置主機的hostname

命令： vim/etc/hostname

（2）配置hosts，命令vim /etc/hosts

（3）安裝JDK

命令：

rpm -qa | grep java 查看是否有通過rpm方式安裝的java

java -version 查看當前環境變量下的java 版本

1） filezilla上傳安裝包，tar -zxvf
jdk-8u212-linux-x64.tar.gz 解壓

2） bin目錄的完整路徑：
/usr/local/jdk/jdk1.8.0_212/bin

3） vim /etc/profile 配置jdk環境變量

（4）複製主機：

1）利用VirtualBox複製功能複製兩台主機

2）命令：vi
/etc/sysconfig/network-scripts/ifcfg-eth0，設置相應的網絡信息

3）三台主機IP分別為： 192.168.0.20/21/22

（5）配置三台主機ssh無密碼登錄（略）

（6）安裝zookeeper

1） filezilla上傳安裝包，zookeeper-3.4.10.tar.gz 解壓

2） bin目錄的完整路徑：
/usr/local/zookeeper/zookeeper-3.4.10/bin

3） vim /etc/profile 配置jdk環境變量

4） zookeeper的配置文件修改，zookeeper-3.4.10/conf/

5）執行命令從master節點複製配置到其他兩個節點

6）每台機器zookeeper目錄下新建一個data目錄， data目錄下新建一個myid文件，master主機存放標識值1；slave1主機標識值為2；slave3主機標識值為3

7）每台機器上命令：zkServer.sh start ，啟動ZK，進程名：QuorumPeerMain

3. Hadoop安裝與部署

3.1安裝Hadoop

1）filezilla上傳安裝包，hadoop-3.3.4.tar.gz 解壓

2）bin目錄的完整路徑： /usr/local/hadoop/hadoop-3.3.4/bin

3）vim /etc/profile 配置jdk環境變量

4）修改配置文件共6個： hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml和workers

文件1： hadoop-env.sh；增加jdk環境變量

文件2： core-site.xml；配置臨時目錄及zookeeper信息

文件3： hdfs-site.xml；配置hdfs信息

文件4： mapred-site.xml；配置mapreduce和dfs權限信息

文件5： yarn-site.xml；配置yarn資源調度信息

文件6: worker文件存放當前的worker節點名，複製到每一個虛擬機中

3.2啟動Hadoop

1）使用命令： hadoop-daemon.sh start journalnode 啟動journalnode 進程（每個節點執行）

2）使用命令： hadoop-daemon.sh start namenode 啟動namenode 進程（master、slave1節點上執行）

3）使用命令：hadoop-daemon.sh start datanode 在所有節點上啟動datanode 進程

4）使用命令：start-yarn.sh 在master上啟動yarn

5）使用命令： hdfs zkfc -formatZK 在ZK上生成ha節點

6）使用命令： hadoop-daemon.sh start zkfc 啟動 DFSZKFailoverController進程，在master節點執行

a. 訪問HDFS的管理頁面

http://192.168.0.20:50070 此處192.168.0.20為namenode節點的Active節點

http://192.168.0.21:50070 此處192.168.0.20為namenode節點的standby節點

3.3 驗證HDFS使用

使用命令：hdfs dfs -ls / 查看HDFS中文件

使用命令：hdfs dfs -mkdir /input 在HDFS上創建目錄

使用命令：hdfs dfs -put ./test.txt /input 將本地文件上傳到HDFS指定目錄

使用命令：hdfs dfs -get /input/test.txt ./tmp 將HDFS文件複製到本地目錄

使用命令：hdfs dfs -text /input/test.txt 查看HDFS上的文本文件

web端瀏覽HDFS目錄

3.4 驗證MapReduce的wordcount案例

（1）先通過命令將帶有文本內容的test2.txt文件上傳到HDFS

（2）對HDFS上test2.txt文件執行wordcount統計，結果放回HDFS新目錄，命令：

hadoop jar /usr/local/hadoop/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input/test2.txt /out

4. Spark安裝與部署

4.1安裝Scala

（1）安裝scala

上傳scala壓縮包解壓，使用命令：

scala -version 查看當前環境變量下的scala 版本

（2）拷貝scala目錄和環境變量到其他兩台機器

使用命令：

scp -r /usr/local/scala root@slave1:/usr/local/

scp /etc/profile root@slave1:/etc/profile

4.2安裝Spark

（1）上傳spark壓縮包解壓，修改配置文件

命令： vim
/usr/local/spark/spark-3.3.1/conf/spark-env.sh

（2）新建worker目錄，寫入master機器名稱

4.3啟動Spark

（1）在master的spark安裝目錄下啟動spark

命令：

cd /usr/local/spark/spark-3.3.1/sbin

./start-all.sh

（2）在slave1同樣目錄啟動master進程

命令：./start-master.sh

（3）訪問spark管理頁面ui

4.4 驗證Spark的wordcount案例

（1）執行命令：

cd /usr/local/spark/spark-3.3.1/bin

./spark-shell --master spark://master:7077

（3）從HDFS讀取數據執行自定義wordcount代碼，結果寫入HDFS，命令：

sc.textFile("hdfs://master:9000/input/test2.txt").flatMap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).saveAsTextFile("hdfs://master:9000/spark_out")

（4）輸出結果：

5. 後記

大數據技術日新月異，得益於互聯網技術加持下的商業和工業模式變革。人們日益增長的對生活生產便捷性、數字化、智能化的需求，催生了數據爆炸式的增長，推動了大數據技術推陳出新。作為新時代的程序開發者，必須掌握一定的大數據基礎知識才能適應時代的要求，本文只是一個引子，從自身實踐的角度幫助初學者認識大數據，並基於此搭建自己屬於自己的開發環境，希望大家能夠在此基礎上繼續鑽研有所建樹。

「其他文章」