2022云+数比赛大数据赛项 样题

来自CloudWiki
跳转至: 导航搜索

1. 在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。

【数据获取】

方法① 使用wget命令获取see.txt文本文件:

“wget -P /data http://house.tipdm.com/SZ-Competition/see.txt”

方法② 下载题目附件中的数据,上传到实训平台中

【文件读取路径】

“/data/see.txt”

【答案提交】

根据赛题提供的“问题1答案报告.docx”文档,将最终答案的实现命令、运行截图整理入文档,并以“手机号+问题1”命名进行提交,如“135600000XXX+问题1”文件名。20分


(1) 在master节点下,进入“/usr/local/hadoop-3.1.4/etc/hadoop/”路径,修改MapReduce配置文件“mapred-site.xml”,设置执行MapReduce作业的框架(mapreduce.framework.name)为YARN,设置MR App Master的环境变量(yarn.app.mapreduce.am.env、mapreduce.map.env和mapreduce.reduce.env),以及设置MapReduce作业所需的类路径CLASSPATH(mapreduce.application.classpath)。对配置完成后的“mapred-site.xml”文件内容进行截图。5分

(2) 发送master节点中的Hadoop至slave1与slave2节点。发送成功后分别在slave1与slave2节点上执行“ll /usr/local/”,并对命令的运行结果进行截图。3分

(3) 格式化NameNode并启动master节点中的Hadoop集群(包括HDFS、YARN和historyserver)。对格式化NameNode的结果进行截图(即显示“successfully formatted”字样)。启动Hadoop集群后,在master、slave1和slave2三个节点分别执行“jps”,验证Hadoop集群启动成功并且对输出结果进行截图。4分

(4) 在master节点下,上传“see.txt”至HDFS的“/user/root”目录。上传完成后使用hdfs命令查看该目录存有的文件并截图。2分

(5) 运行master节点中Hadoop自带的MapReduce程序,统计“/user/root”目录的“see.txt”文件中单词的平均长度,输出路径为“/output”。(注意统计结果输出的文件默认为“part-r-00000”)2分

(6) 使用hdfs命令查看master节点“/output”目录下统计结果文件“part-r-00000”的内容,对命令执行结果进行截图。2分

(7) 使用hdfs命令下载统计结果文件“part-r-00000”到master节点的“/data”目录。2分

附件 问题一数据及提交模板.zip

你的答案:

2. 请依据题目要求运用Python语言采集二手房网址的房源信息,其网址为“http://house.tipdm.com/spider/fyxx/index.html”。

【答案提交】

提交代码文件(.ipynb格式文件)和采集数据(result2_1.xlsx和result2_2.xlsx)。文件使用压缩包的形式上传,并以“手机号+问题2”命名,如“13560000XXX+问题2”文件名。

注:为确保拿到相应分数,请务必提交采集数据result2_1.xlsx和result2_2.xlsx。30分


(1) 解析二手房网址,采集前15页(包含第15页)二手房具体房源信息网址,并将采集结果存于Excel文件,保存路径设定为“/data/result2_1.xlsx”,编码格式为“utf-8”。

8分

(2) 采集二手房信息的户型、楼层、建筑面积、住宅类别、电梯、学校、建筑年代和总价,并将数据整理为DataFrame数据框形式。

18分

(3) 将数据以“['户型', '楼层', '建筑面积', '住宅类别', '电梯', '学校', '建筑年代', '总价']”中文名称设定列名,最终将数据保存为Excel文件,保存路径设定为“/data/result2_2.xlsx”,编码格式为“utf-8”。4分

你的答案:

3. 基于二手房房价数据,根据题目要求运用Python语言的数据分析知识对数据进行清洗与挖掘。(文件名及路径为“/data/SecondhandHouseV4.csv”)

【数据获取】

方法① 使用wget命令获取SecondhandHouseV4.csv:

“wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouseV4.csv”

(运行引号中的所有代码可将数据上传到实训平台)

方法② 下载题目附件中的数据,上传到实训平台中

【文件读取路径】

“/data/SecondhandHouseV4.csv”

【答案提交】

提交代码文件(.ipynb格式文件)和数据(result3.csv)。文件使用压缩包的形式上传,并以“手机号+问题3”命名,如“13600000XXX+问题3”文件名。

注:为确保拿到相应分数,请务必提交处理后的二手房屋数据result3.csv。30分


(1) 删除数据中含有缺失值(NAN)的行数据。4分

(2) 删除“总价”列的价格单位“万”,仅保留数值,并将其数据类型转换为浮点型。5分

(3) 删除“总价”列数值大于200的行数据。4分

(4) 删除“建筑年代”列的年份单位“年”,仅保留数值,并将其数据类型转为整数型。5分

(5) 二手房的出售一般为旧楼房,建筑年代应小于2022年,保留“建筑年代”小于等于2021年的房屋数据。4分

(6) 使用当前年份(2022年)减去建筑年份获取房龄,并将结果存入“房龄”列。3分

(7) 删除“户型”、“建筑年代”和“住宅类别”列。3分

(8) 完成上述步骤后,将处理后的二手房屋数据保存为CSV文件,保存路径设定为“/data/result3.xlsx”,编码格式为“utf-8”。2分

附件 SecondhandHouseV4.csv

你的答案:

4. 基于二手房房价数据,根据题目要求运用Python语言的数据挖掘与可视化知识对数据进行统计与基本图形绘制。(文件名及路径为“/data/SecondhandHouse_view.csv”)

【数据获取】

方法①使用wget代码获取数据:

“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouse_view.csv”

(运行引号中的所有代码可将数据上传到实训平台)

方法②下载题目附件中的数据,上传到实训平台中

【文件读取路径】

“/data/SecondhandHouse_view.csv”

【答案提交】

根据赛题提供的“问题4答案报告.docx”文档,将最终答案的结果图(统计结果+可视化绘图结果)整理入文档,以“手机号+问题4”命名,如“13560000XXX+问题4”文件名,并提交代码文件(.ipynb格式文件),文件使用压缩包的形式上传,并以“手机号+问题4”命名,如“13560000XXX+问题4”文件名。20分


(1) 绘制建筑面积与房价分布情况的散点图:设定x轴数据为建筑面积,y轴数据为总价;x轴与y轴标签(xlabel and ylabel)分别为“建筑面积(平米)”和“总价(万)”;图形标题(title)为“二手房建筑面积与房价的关系分析”。4分

(2) 运用seaborn库绘制不同装修程度的二手房房价的分组箱线图:设定x轴数据为装修程度,y轴数据为总价;x轴与y轴标签(xlabel and ylabel)分别为“装修程度”和“二手房房价(万)”;图形标题(title)为“不同装修程度的二手房房价分组箱线图”。5分

(3) 统计“楼层”、“电梯”和“学校”列不同情况的二手房数量,并进行打印展示。3分

(4) 绘制二手房楼层、电梯和学校的不同情况占比的饼图:将画布分成1行3列的3个子图,子图1、2、3分别绘制楼层、电梯和学校不同情况占比的饼图;对每个子图设定标题,分别为“楼层”、“电梯”和“学校”;令每个饼图展示各自的百分比(autopct)和标签(labels),其中百分比保留小数点后1位。8分