Hadoop:查询与中断MapReduce任务

来自CloudWiki
跳转至: 导航搜索

实训目标

(1) 掌握查询 MapReduce 任务信息。

(2) 掌握查询集群的计算资源信息。

(3) 掌握中断执行中的 MapReduce 任务。

实训环境

(1) 使用 CentOS 6.10 的 Linux 操作系统虚拟机搭建的集群,节点有 3 个。

(2) 使用 2.6.4 版本 Hadoop 配置的集群。

实训内容

(1) 使用 Web 浏览器查看已执行过的 MapReduce 任务。

(2) 依次提交 3 个统计单词长度的 MapReduce 任务,查看当前集群的计算资源使用情况,以及任务列表信息。

(3) 中断第 2 个任务,观察后续任务的执行情况。

实训步骤

前置步骤

执行“ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordmean /user/root/email_log.txt /user/root/wordmean ”,在 Web 浏览器输入“ http://master:8088/cluster/apps ”,打开 MapReduce 任务列表界面 ,可以看到任务运行状态和运行时间,如 图 4 ‑1 所示, StartTime 为开始时间, FinishTime 为结束时间, State 为运行状态, FinalStatus 为任务最终状态。

图 4 ‑ 1 MapReduce 任务任务信息

点击前面的任务 ID 可进入该任务的详细信息界面查看详细的任务信息 ,如下 图 4‑2 所示。

图 4 ‑ 2 wordmean 任务结束后的状态 4.4 同时提交多个 MapReduce 任务

同时打开 3 个 master 节点的命令终端,依次分别提交 wordmean MapReduce 任务,如下 代码 4 ‑2 所示。注意,输出目录必须重新指定,并且 3 个任务对应的输出目录是不相同的,例如,新的输出路径分别设置为 /user/root/wordmean1 , /user/root/wordmean2 , /user/root/wordmean3 。

代码 4 ‑ 2 提交 3 个 wordmean 任务到集群

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordmean /user/root/email_log.txt /user/root/wordmean1

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordmean /user/root/email_log.txt /user/root/wordmean2

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordmean /user/root/email_log.txt /user/root/wordmean3 4.5 查看当前集群及各节点的资源使用情况

在开始执行后,马上在 WEB 浏览器输入“ http://master:8088/cluster/nodes ”,查看当前集群及各节点的资源使用情况。如 图 4 ‑3 所示,可以看到目前的资源使用状况。

图 4 ‑ 3 资源使用情况 4.6 中断任务 2

在任务未完成时,点击之前提交的第二个任务的任务 id ,进入该任务的任务信息界面,点击左上角的 kill Application 中断当前任务,如 图 4‑4 所示。

图 4 ‑ 4 中断任务

任务中断后重新查看“ http://master:8088/cluster/apps ”的任务运行情况,如 图 4 ‑5 所示。

图 4 ‑ 5 中断任务后 3 个任务的运行情况

运行结束后可在“ http://master:50070/dfshealth.jsp ”查看输出文件的结果,第一个任务输出 wordmean1 如 图 4 ‑6 所示。

图 4 ‑ 6 wordmean1

第 2 个任务被中断了,输出结果 wordmean2 如 图 4‑7 所示。

图 4 ‑ 7 wordmean2

第 3 个任务输出结果 wordmean3 如 图 4 ‑8 所示。

图 4 ‑ 8 wordmean3