Spark安装配置

来自CloudWiki
Cloud17讨论 | 贡献2020年7月9日 (四) 06:02的版本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

软件环境

软    件	版    本	安  装  包	备注
Linux OS	CentOS6.8	CentOS-6.8-x86_64-bin-DVD1.iso	64位
JDK	1.8+	jdk-8u151-linux-x64.rpm	64位
VMware	11	VMware-workstation-full-11.0.0-2305329.exe	 
Hadoop	2.6.5	hadoop-2.6.5.tar.gz	已编译好的安装包
Hive	1.2.1	apache-hive-1.2.1-bin.tar.gz	
Spark	2.4.0	spark-2.4.0-bin-hadoop2.6.tgz	64位
IntelliJ IDEA	2.7	ideaIU-2017.2.6.exe	 
SSH连接工具	5	Xme5.exe	 

集群规模

192.168.128.130     master	 1.5G ~2G内存、20G硬盘、NAT、1~2核 ;
192.168.128.131     slave1	1G内存、20G硬盘、NAT、1核
192.168.128.132     slave2	1G内存、20G硬盘、NAT、1核
192.168.128.133     slave3	1G内存、20G硬盘、NAT、1核

安装模式

本地模式

在一个节点上安装Spark,利用本地线程运行程序,非分布式环境

伪分布式

Spark单机伪分布式是在一台机器上既有Master,又有Worker进程

完全分布式

全分布模式用于生产,至少需要3~4台机器,其中一台为为主节点,部署Master,其他节点部署Worker

HA高可用模式

在完全分布式基础上利用Zookeeper实现Master主从备份

集群拓扑

Bd20-7-22.png