2021云+数:模拟题1
来自CloudWiki
大数据平台组件搭建
(注意:所有题目答案需进行汇总,提交一份Word竞赛报告即可!)
要求在Hadoop集群上搭建1.6.3版本的Spark分布式集群。(提示如下,注意每一步骤的代码与结果需截图在报告中体现)
Spark安装包处理,解压到/usr/local目录下,在master节点通过命令“wget -P /opt http://datasrc.tipdm.net:81/bigdata/spark/software/spark-1.6.3-bin-hadoop2.6.tgz”进行获取。
Spark配置文件修改(spark-env.sh、slaves、spark-default.conf),配置要求为:以master为主节点,Spark Master端口号为7077,Worker使用计算资源为单核512m,Executor使用计算资源为单核512m,限制每台机器只能有一个worker,spark日志相关信息与事件日志的保存路径均设置为HDFS文件系统上的/spark-logs。 子节点同步。
创建spark-default.conf配置文件中指定的Spark日志存放目录。
修改环境变量,并使其生效。
确保Hadoop集群已开启。
启动Spark集群。
查看Spark监控界面,确认集群部署状态无误。