PySpark实战:简介

来自CloudWiki
跳转至: 导航搜索

介绍

ETL是 Extract、Transform和Load的简称,用来描述将数据从数据源经过抽取(Extract)、转换(Transform)和加载(Load)至终端的一系列处理过程。

ETL可以说是大数据分析、数据挖掘和机器学习中必不可少的一个环节。

有不少大数据或者机器学习项目,大部分的精力与时间都用在ETL工具进行数据处理上。

内容

  • PySpark对数据进行抽取
  • PySpark对数据进行转换
  • PySpark对数据进行存储