2022云+数比赛大数据赛项样题

1. 在Linux终端执行命令“initnetwork”，或双击桌面上名称为“初始化网络”的图标，初始化实训平台网络。

【数据获取】

方法① 使用wget命令获取see.txt文本文件：

“wget -P /data http://house.tipdm.com/SZ-Competition/see.txt”

方法② 下载题目附件中的数据，上传到实训平台中

【文件读取路径】

“/data/see.txt”

【答案提交】

根据赛题提供的“问题1答案报告.docx”文档，将最终答案的实现命令、运行截图整理入文档，并以“手机号+问题1”命名进行提交，如“135600000XXX+问题1”文件名。20分

（1）在master节点下，进入“/usr/local/hadoop-3.1.4/etc/hadoop/”路径，修改MapReduce配置文件“mapred-site.xml”，设置执行MapReduce作业的框架（mapreduce.framework.name）为YARN，设置MR App Master的环境变量（yarn.app.mapreduce.am.env、mapreduce.map.env和mapreduce.reduce.env），以及设置MapReduce作业所需的类路径CLASSPATH（mapreduce.application.classpath）。对配置完成后的“mapred-site.xml”文件内容进行截图。5分

（2）发送master节点中的Hadoop至slave1与slave2节点。发送成功后分别在slave1与slave2节点上执行“ll /usr/local/”，并对命令的运行结果进行截图。3分

（3）格式化NameNode并启动master节点中的Hadoop集群（包括HDFS、YARN和historyserver）。对格式化NameNode的结果进行截图（即显示“successfully formatted”字样）。启动Hadoop集群后，在master、slave1和slave2三个节点分别执行“jps”，验证Hadoop集群启动成功并且对输出结果进行截图。4分

（4）在master节点下，上传“see.txt”至HDFS的“/user/root”目录。上传完成后使用hdfs命令查看该目录存有的文件并截图。2分

（5）运行master节点中Hadoop自带的MapReduce程序，统计“/user/root”目录的“see.txt”文件中单词的平均长度，输出路径为“/output”。（注意统计结果输出的文件默认为“part-r-00000”）2分

（6）使用hdfs命令查看master节点“/output”目录下统计结果文件“part-r-00000”的内容，对命令执行结果进行截图。2分

（7）使用hdfs命令下载统计结果文件“part-r-00000”到master节点的“/data”目录。2分

附件 问题一数据及提交模板.zip

你的答案：

2. 请依据题目要求运用Python语言采集二手房网址的房源信息，其网址为“http://house.tipdm.com/spider/fyxx/index.html”。

【答案提交】

提交代码文件（.ipynb格式文件）和采集数据（result2_1.xlsx和result2_2.xlsx）。文件使用压缩包的形式上传，并以“手机号+问题2”命名，如“13560000XXX+问题2”文件名。

注：为确保拿到相应分数，请务必提交采集数据result2_1.xlsx和result2_2.xlsx。30分

（1）解析二手房网址，采集前15页（包含第15页）二手房具体房源信息网址，并将采集结果存于Excel文件，保存路径设定为“/data/result2_1.xlsx”，编码格式为“utf-8”。

8分

（2）采集二手房信息的户型、楼层、建筑面积、住宅类别、电梯、学校、建筑年代和总价，并将数据整理为DataFrame数据框形式。

18分

（3）将数据以“['户型', '楼层', '建筑面积', '住宅类别', '电梯', '学校', '建筑年代', '总价']”中文名称设定列名，最终将数据保存为Excel文件，保存路径设定为“/data/result2_2.xlsx”，编码格式为“utf-8”。4分

你的答案：

3. 基于二手房房价数据，根据题目要求运用Python语言的数据分析知识对数据进行清洗与挖掘。（文件名及路径为“/data/SecondhandHouseV4.csv”）

【数据获取】

方法① 使用wget命令获取SecondhandHouseV4.csv：

“wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouseV4.csv”

（运行引号中的所有代码可将数据上传到实训平台）

方法② 下载题目附件中的数据，上传到实训平台中

【文件读取路径】

“/data/SecondhandHouseV4.csv”

【答案提交】

提交代码文件（.ipynb格式文件）和数据（result3.csv）。文件使用压缩包的形式上传，并以“手机号+问题3”命名，如“13600000XXX+问题3”文件名。

注：为确保拿到相应分数，请务必提交处理后的二手房屋数据result3.csv。30分

（1）删除数据中含有缺失值（NAN）的行数据。4分

（2）删除“总价”列的价格单位“万”，仅保留数值，并将其数据类型转换为浮点型。5分

（3）删除“总价”列数值大于200的行数据。4分

（4）删除“建筑年代”列的年份单位“年”，仅保留数值，并将其数据类型转为整数型。5分

（5）二手房的出售一般为旧楼房，建筑年代应小于2022年，保留“建筑年代”小于等于2021年的房屋数据。4分

（6）使用当前年份（2022年）减去建筑年份获取房龄，并将结果存入“房龄”列。3分

（7）删除“户型”、“建筑年代”和“住宅类别”列。3分

（8）完成上述步骤后，将处理后的二手房屋数据保存为CSV文件，保存路径设定为“/data/result3.xlsx”，编码格式为“utf-8”。2分

附件 SecondhandHouseV4.csv

你的答案：

4. 基于二手房房价数据，根据题目要求运用Python语言的数据挖掘与可视化知识对数据进行统计与基本图形绘制。（文件名及路径为“/data/SecondhandHouse_view.csv”）

【数据获取】

方法①使用wget代码获取数据：

“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouse_view.csv”

（运行引号中的所有代码可将数据上传到实训平台）

方法②下载题目附件中的数据，上传到实训平台中

【文件读取路径】

“/data/SecondhandHouse_view.csv”

【答案提交】

根据赛题提供的“问题4答案报告.docx”文档，将最终答案的结果图（统计结果+可视化绘图结果）整理入文档，以“手机号+问题4”命名，如“13560000XXX+问题4”文件名，并提交代码文件（.ipynb格式文件），文件使用压缩包的形式上传，并以“手机号+问题4”命名，如“13560000XXX+问题4”文件名。20分

（1）绘制建筑面积与房价分布情况的散点图：设定x轴数据为建筑面积，y轴数据为总价；x轴与y轴标签（xlabel and ylabel）分别为“建筑面积（平米）”和“总价（万）”；图形标题（title）为“二手房建筑面积与房价的关系分析”。4分

（2）运用seaborn库绘制不同装修程度的二手房房价的分组箱线图：设定x轴数据为装修程度，y轴数据为总价；x轴与y轴标签（xlabel and ylabel）分别为“装修程度”和“二手房房价（万）”；图形标题（title）为“不同装修程度的二手房房价分组箱线图”。5分

（3）统计“楼层”、“电梯”和“学校”列不同情况的二手房数量，并进行打印展示。3分

（4）绘制二手房楼层、电梯和学校的不同情况占比的饼图：将画布分成1行3列的3个子图，子图1、2、3分别绘制楼层、电梯和学校不同情况占比的饼图；对每个子图设定标题，分别为“楼层”、“电梯”和“学校”；令每个饼图展示各自的百分比（autopct）和标签（labels），其中百分比保留小数点后1位。8分

2022云+数比赛大数据赛项样题

导航菜单

个人工具

命名空间

变种

视图

更多

搜索

导航

工具

2022云+数比赛大数据赛项 样题

导航菜单

搜索

2022云+数比赛大数据赛项样题