查看“PySpark实战”的源代码
←
PySpark实战
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==大数据时代== *[[PySpark实战:什么是大数据]] *[[PySpark实战:大数据下的分析工具]] ==大数据的瑞士军刀--Spark== *[[PySpark实战:Hadoop与生态系统]] *[[PySpark实战:Spark与Hadoop]] *[[PySpark实战:Spark核心概念]] *[[PySpark实战:Spark基本操作]] *[[PySpark实战:SQL in Spark]] *[[PySpark实战:Spark与机器学习]] ==Spark实战环境设定== ===建立Spark环境前提=== *[[PySpark实战:建立Spark环境前提]] *[[安装Centos 7操作系统]] *[[安装VMware Workstation]] *[[VMWARE新建虚拟机]] *[[Linux虚拟机连通外网]] *[[SecureRT远程连接Linux]] *[[Centos7 安装python3]] *[[Linux系统安装Java环境]] *[[Visual Studio Code安装]] ===一分钟建立Spark环境=== *[[PySpark实战:下载Spark]] *[[PySpark实战:Linux搭建Spark环境]] *[[PySpark实战:Windows搭建Spark环境]] ===打造交互式Spark环境=== *[[PySpark实战:Jupyter Notebook安装]] ==活用PySpark== *Python语法复习 *[[PySpark实战:用PySpark建立第一个Spark RDD]] *[[PySpark实战:PySpark Shell 建立RDD]] *[[PySpark实战:Python文件 建立RDD]] ===RDD的操作与观察=== *[[PySpark实战:RDD的操作与观察]] *[[PySpark实战:first操作-获取第一个元素]] *[[PySpark实战:max操作-获取最大元素]] *[[PySpark实战:sum操作-求和操作]] *[[PySpark实战:take操作-获取前n个元素]] *[[PySpark实战:top操作-获取排名前N位]] *[[PySpark实战:count操作-获取元素总个数]] *[[PySpark实战:collect操作-将RDD类型的数据转化为数组]] *[[PySpark实战:collectAsMap操作-将RDD 转换为Map映射]] *[[PySpark实战:countByKey操作-统计RDD中每个键的数量]] *[[PySpark实战:countByValue操作-统计RDD中各个value出现的次数]] *[[PySpark实战:glom操作]] *[[PySpark实战:coalesce操作]] *[[PySpark实战:combineByKey操作]] *[[PySpark实战:distinct操作]] *[[PySpark实战:filter操作]] *[[PySpark实战:flatMap操作]] *[[PySpark实战:flatMapValues操作]] *[[PySpark实战:fold操作]] *[[PySpark实战:foldByKey操作]] *[[PySpark实战:foreach操作]] *[[PySpark实战:foreachPartition操作]] *[[PySpark实战:map操作]] *[[PySpark实战:mapPartition操作]] *[[PySpark实战:mapPartitionsWithIndex操作]] *[[PySpark实战:mapValues操作]] *[[PySpark实战:groupBy操作]] *[[PySpark实战:groupByKey操作]] *[[PySpark实战:keyBy操作]] *[[PySpark实战:keys操作]] *[[PySpark实战:zip操作]] *[[PySpark实战:zipWithIndex操作]] *[[PySpark实战:values操作]] *[[PySpark实战:union操作]] *[[PySpark实战:takeOrdered操作]] *[[PySpark实战:takeSample操作]] *[[PySpark实战:subtract操作]] *[[PySpark实战:subtractByKey操作]] *[[PySpark实战:stats操作]] *[[PySpark实战:sortBy操作]] *[[PySpark实战:sortByKey操作]] *[[PySpark实战:sample操作]] *[[PySpark实战:repartition操作]] *[[PySpark实战:reduce操作]] *[[PySpark实战:reduceByKey操作]] *[[PySpark实战:randomSplit]] *[[PySpark实战:lookup操作]] *[[PySpark实战:join操作]] *[[PySpark实战:intersection操作]] *[[PySpark实战:fullOuterJoin操作]] *[[PySpark实战:leftOuterJoin与rightOuterJoin操作]] *[[PySpark实战:aggregate操作]] *[[PySpark实战:aggregateByKey操作]] *[[PySpark实战:cartesian操作]] *[[PySpark实战:cache操作]] *[[PySpark实战:saveAsTextFile操作]] ===共享变数=== *[[PySpark实战:广播变量]] *[[PySpark实战:累加器]] ===DataFrames与Spark SQL=== *[[PySpark实战:DataFrame建立]] *[[PySpark实战:Spark SQL基本用法]] *[[PySpark实战:DataFrame基本操作]] *[[PySpark实战:DataFrame去重处理]] *[[PySpark实战:DataFrame删除列]] *[[PySpark实战:DataFrame移除部分数据]] *[[PySpark实战:DataFrame空值替换]] *[[PySpark实战:DataFrame修改列名、重新生成列]] *[[PySpark实战:DataFrame读取JSON数据]] *[[PySpark实战:DataFrame数据透视]] *[[PySpark实战:DataFrame条件选择]] *[[PySpark实战:DataFrame日期时间处理]] *[[PySpark实战:DataFrame存储csv数据]] ===撰写第一个Spark程序=== *[[PySpark实战:撰写第一个Spark程序]] *[[PySpark实战:提交你的Spark程序]] ==PySpark ETL实战== *[[PySpark实战:简介]] *[[PySpark实战:认识资料单元格式]] *[[PySpark实战:观察资料]] *[[PySpark实战:Matplotlib数据可视化]] *[[PySpark实战:观察资料_实施]] *[[PySpark实战:选择、筛选与聚合]] *[[PySpark实战:存储数据]] *[[PySpark实战:存储数据到SQL Server]] ==PySpark分布式机器学习== *[[PySpark实战:分布式机器学习]] *[[PySpark实战:认识数据格式]] *[[PySpark实战:描述统计]] *[[PySpark实战:资料清理与变形]] *[[PySpark实战:认识Pipeline]] *[[PySpark实战:逻辑回归原理与应用]] *[[PySpark实战:决策树原理及应用]] ==PySpark+Kafka实时项目== ===Flask版=== *[[PySpark实战:PySpark+Kafka介绍]] *[[windows下搭建Kafka环境]] *[[PySpark实战:Flask环境搭建]] *[[FLASK搭建网站框架]] *[[PySpark实战:Kafka和Flask代码实现]] *数据平台实践①——Flume+Kafka+SparkStreaming(pyspark): https://www.jianshu.com/p/c2e5c347fe60 ===Django版=== *[[PySpark实战:PySpark+Kafka+Django介绍]] *[[windows下搭建Kafka环境]] *[[在Windows上创建Django项目]]、[[Linux上创建第一个Django 项目]] *[[PySpark实战:Spark 和Django集成]](还可以考虑通过redis 向前端传递数据) *数据平台实践①——Flume+Kafka+SparkStreaming(pyspark): https://www.jianshu.com/p/c2e5c347fe60 ==路线图== ===PySpark基础统计=== ===PySpark推荐系统=== ===PySpark+ 机器学习/人工智能=== pyspark教程:http://xueai8.com/book/6
返回至
PySpark实战
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息