2021云+数:模拟题2-4

来自CloudWiki
跳转至: 导航搜索

二、编程学习网站题目爬取 (注意:所有题目答案需进行汇总,提交一份Word竞赛报告即可!)

访问菜鸟教程(https://www.runoob.com),爬取其Python3实例模块的题目内容,要求输出格式如下图所示。

文本

描述已自动生成


三、电力数据分析与挖掘 (注意:所有题目答案需进行汇总,提交一份Word竞赛报告即可!)

数据data_etr.csv(数据获取命令为“wget -P /opt http://datasrc.tipdm.net:81/race/data_etr.csv”)为用户用电量数据,数据中有编号为1-200的200位电力用户,DATA_DATE表示时间,如2015/1/1表示2015年1月1日,KWH为用电量。请完成以下工作:

将数据进行转置,转置后行为用户编号、列为日期、值为用户每日用电量。 对数据中的异常数据进行识别并处理。 统计每个用户用电数据的基本统计量,包括:最大值、最小值、均值、中位数、和、方差、偏度、峰度。 每个用户用电数据按日差分,并求取差分结果的基本统计量,统计量同3。 求取每个用户的5%分位数。 每个用户按周求和并差分(一周7天,年度分开),并求取差分结果的基本统计量,统计量同3。 统计每个用户的日用电量在其最大值0.9倍以上的次数。 求取每个用户日为最大值/最小值的索引月份,若最大值/最小值存在于多个月份中,则输出含有最大值/最小值最多的那个月份。如1号用户的最小值为0,12个月每个月都有0,则看哪个月的0最多。 合并上述特征。


四、股票数据可视化 (注意:所有题目答案需进行汇总,提交一份Word竞赛报告即可!)

针对股票数据(数据获取命令为“wget -P /opt http://datasrc.tipdm.net:81/race/trd.xlsx”),完成以下问题:

trd.xlsx文件读取及数据查看; 提取股票代号600000在2017年1月3日至2017年1月20日的收盘价格数据,并绘制股票价格走势图进行分析; 提取股票代号600000在2017年1月3日至2017年1月24日的交易量数据,并绘制交易量分布柱状图进行分析; 提取股票代号600000在2017年1月至11月的交易量统计数据,并绘制月交易量分布饼图进行分析; 绘制以上图形组成的3×1子图。