PySpark实战:简介
来自CloudWiki
介绍
ETL是 Extract、Transform和Load的简称,用来描述将数据从数据源经过抽取(Extract)、转换(Transform)和加载(Load)至终端的一系列处理过程。
ETL可以说是大数据分析、数据挖掘和机器学习中必不可少的一个环节。
有不少大数据或者机器学习项目,大部分的精力与时间都用在ETL工具进行数据处理上。
内容
- PySpark对数据进行抽取
- PySpark对数据进行转换
- PySpark对数据进行存储