PySpark实战
来自CloudWiki
目录
大数据时代
大数据的瑞士军刀--Spark
- PySpark实战:Hadoop与生态系统
- PySpark实战:Spark与Hadoop
- PySpark实战:Spark核心概念
- PySpark实战:Spark基本操作
- PySpark实战:SQL in Spark
- PySpark实战:Spark与机器学习
Spark实战环境设定
建立Spark环境前提
- PySpark实战:建立Spark环境前提
- 安装Centos 7操作系统
- 安装VMware Workstation
- VMWARE新建虚拟机
- Linux虚拟机连通外网
- SecureRT远程连接Linux
- Centos7 安装python3
- Linux系统安装Java环境
- Visual Studio Code安装
一分钟建立Spark环境
打造交互式Spark环境
活用PySpark
RDD的操作与观察
- PySpark实战:RDD的操作与观察
- PySpark实战:first操作-获取第一个元素
- PySpark实战:max操作-获取最大元素
- PySpark实战:sum操作-求和操作
- PySpark实战:take操作-获取前n个元素
- PySpark实战:top操作-获取排名前N位
- PySpark实战:count操作
- PySpark实战:collect操作
- PySpark实战:collectAsMap操作
- PySpark实战:countByKey操作
- PySpark实战:countByValue操作
- PySpark实战:glom操作
- PySpark实战:coalesce操作
- PySpark实战:combineByKey操作
- PySpark实战:distinct操作
- PySpark实战:filter操作
- PySpark实战:flatMap操作
- PySpark实战:flatMapValues操作
- PySpark实战:fold操作
- PySpark实战:foldByKey操作
- PySpark实战:foreach操作
- PySpark实战:foreachPartition操作
- PySpark实战:map操作
- PySpark实战:mapPartition操作
- PySpark实战:mapPartitionsWithIndex操作
- PySpark实战:mapValues操作
- PySpark实战:groupBy操作
- PySpark实战:groupByKey操作
- PySpark实战:keyBy操作
- PySpark实战:keys操作
- PySpark实战:zip操作
- PySpark实战:zipWithIndex操作
- PySpark实战:values操作
- PySpark实战:union操作
- PySpark实战:takeOrdered操作
- PySpark实战:takeSample操作
- PySpark实战:subtract操作
- PySpark实战:subtractByKey操作
- PySpark实战:stats操作
- PySpark实战:sortBy操作
- PySpark实战:sortByKey操作
- PySpark实战:sample操作
- PySpark实战:repartition操作
- PySpark实战:reduce操作
- PySpark实战:reduceByKey操作
- PySpark实战:randomSplit
- PySpark实战:lookup操作
- PySpark实战:join操作
- PySpark实战:intersection操作
- PySpark实战:fullOuterJoin操作
- PySpark实战:leftOuterJoin与rightOuterJoin操作
- PySpark实战:aggregate操作
- PySpark实战:aggregateByKey操作
- PySpark实战:cartesian操作
- PySpark实战:cache操作
- PySpark实战:saveAsTextFile操作
共享变数
DataFrames与Spark SQL
- PySpark实战:DataFrame建立
- PySpark实战:Spark SQL基本用法
- PySpark实战:DataFrame基本操作
- PySpark实战:DataFrame去重处理
- PySpark实战:DataFrame删除列
- PySpark实战:DataFrame移除部分数据
- PySpark实战:DataFrame空值替换
- PySpark实战:DataFrame修改列名、重新生成列
- PySpark实战:DataFrame读取JSON数据
- PySpark实战:DataFrame数据透视
- PySpark实战:DataFrame条件选择
- PySpark实战:DataFrame日期时间处理
- PySpark实战:DataFrame存储csv数据
撰写第一个Spark程序
PySpark ETL实战
- PySpark实战:简介
- PySpark实战:认识资料单元格式
- PySpark实战:观察资料
- PySpark实战:Matplotlib数据可视化
- PySpark实战:观察资料_实施
- PySpark实战:选择、筛选与聚合
- PySpark实战:存储数据
- PySpark实战:存储数据到SQL Server
PySpark分布式机器学习
- PySpark实战:分布式机器学习
- PySpark实战:认识数据格式
- PySpark实战:描述统计
- PySpark实战:资料清理与变形
- PySpark实战:认识Pipeline
- PySpark实战:逻辑回归原理与应用
- PySpark实战:决策树原理及应用
PySpark+Kafka实时项目
Flask版
- PySpark实战:PySpark+Kafka介绍
- windows下搭建Kafka环境
- PySpark实战:Flask环境搭建
- FLASK搭建网站框架
- PySpark实战:Kafka和Flask代码实现
- 数据平台实践①——Flume+Kafka+SparkStreaming(pyspark): https://www.jianshu.com/p/c2e5c347fe60
Django版
- PySpark实战:PySpark+Kafka+Django介绍
- windows下搭建Kafka环境
- 在Windows上创建Django项目、Linux上创建第一个Django 项目
- PySpark实战:Spark 和Django集成(还可以考虑通过redis 向前端传递数据)
- 数据平台实践①——Flume+Kafka+SparkStreaming(pyspark): https://www.jianshu.com/p/c2e5c347fe60
路线图
PySpark基础统计
PySpark推荐系统
PySpark+ 机器学习/人工智能
pyspark教程:http://xueai8.com/book/6