Spark安装配置
来自CloudWiki
软件环境
软 件 版 本 安 装 包 备注 Linux OS CentOS6.8 CentOS-6.8-x86_64-bin-DVD1.iso 64位 JDK 1.8+ jdk-8u151-linux-x64.rpm 64位 VMware 11 VMware-workstation-full-11.0.0-2305329.exe Hadoop 2.6.5 hadoop-2.6.5.tar.gz 已编译好的安装包 Hive 1.2.1 apache-hive-1.2.1-bin.tar.gz Spark 2.4.0 spark-2.4.0-bin-hadoop2.6.tgz 64位 IntelliJ IDEA 2.7 ideaIU-2017.2.6.exe SSH连接工具 5 Xme5.exe
集群规模
192.168.128.130 master 1.5G ~2G内存、20G硬盘、NAT、1~2核 ; 192.168.128.131 slave1 1G内存、20G硬盘、NAT、1核 192.168.128.132 slave2 1G内存、20G硬盘、NAT、1核 192.168.128.133 slave3 1G内存、20G硬盘、NAT、1核
安装模式
本地模式
在一个节点上安装Spark,利用本地线程运行程序,非分布式环境
伪分布式
Spark单机伪分布式是在一台机器上既有Master,又有Worker进程
完全分布式
全分布模式用于生产,至少需要3~4台机器,其中一台为为主节点,部署Master,其他节点部署Worker
HA高可用模式
在完全分布式基础上利用Zookeeper实现Master主从备份