PySpark实战:观察资料 准备

来自CloudWiki
跳转至: 导航搜索

介绍

在正式分析前需确定如下问题:

  • 默认识别的资料单元格式类型是否合理?
  • 字段的基本统计信息:均值、最大值、最小值等
  • 某些字段是否线性相关。
  • 某些字段缺失,或存在错误数据,进行修复处理

安装库

pip3 install numpy

pip3 install matplotlib

pip3 install pandas

  • Numpy:开源计算库
  • Pandas: 基于Numpy的一种工具,解决数据分析任务
  • Matplotlib:一个Python的2D绘图库