“实时推荐系统”的版本间的差异
来自CloudWiki
(创建页面,内容为“*数据采集与缓存”) |
|||
(未显示2个用户的24个中间版本) | |||
第1行: | 第1行: | ||
+ | |||
+ | ==简介== | ||
+ | |||
+ | 电商平台网站 G 随着业务量越来越大,公司希望了解用户在浏览公司站点时的行为习惯和消费习惯,需要收集用户在站点的实时访问数据,并根据用户的购买偏好进行实时商品推荐。 | ||
+ | |||
+ | 用户数据来源分为两部分,即用户的网站日志和业务数据库。公司大数据工程师需要通过这两类数据来源中的数据分析用户的消费偏好。 | ||
+ | |||
+ | ==实训环境== | ||
+ | |||
+ | (1) 使用 CentOS 6.10 的 Linux 操作系统搭建的 3 个节点。 | ||
+ | |||
+ | (2) 使用 1.8 的 JDK 。 | ||
+ | |||
+ | (3) 使用 3.4.6 版本的 ZooKeeper 。 | ||
+ | |||
+ | (4) 使用 2.6.4 版本的 Hadoop 。 | ||
+ | |||
+ | (5) 使用 1.2.1 版本的 Hive 。 | ||
+ | |||
+ | (6) 使用 1.9.0 版本的 Flume 。 | ||
+ | |||
+ | (7) 使用 2.3.1 的 Kafka 。 | ||
+ | |||
+ | (8) 使用 1.10.1 版本的 Flink 。 | ||
+ | |||
+ | ==实训步骤== | ||
*[[数据采集与缓存]] | *[[数据采集与缓存]] | ||
+ | *[[Flume安装配置]] | ||
+ | *[[编写Flume配置文件]] | ||
+ | *[[Kafka——集群安裝部署(自带Zookeeper)]] | ||
+ | *[[Kafka数据缓存]] | ||
+ | *[[Flink安装配置]] | ||
+ | *Flink开发环境:[[IDEA配置]] | ||
+ | *[[Flink点击流和销售额计算-创建MYSQL存储表]] | ||
+ | *[[Flink点击流和销售额计算-自定义mysql sink ]] | ||
+ | *[[Flink点击流和销售额计算]] | ||
+ | |||
+ | *[[Flink实时数据处理]] | ||
+ | |||
+ | |||
+ | |||
+ | *[[丝路通:数据采集与缓存]] | ||
+ | *[[丝路通:Flume安装配置]] | ||
+ | *[[丝路通:编写Flume配置文件]] | ||
+ | *[[丝路通:Kafka单机版安装]] | ||
+ | *[[丝路通:Kafka数据缓存]] | ||
+ | *[[丝路通:Flink单机版安装配置]] | ||
+ | *Flink开发环境:[[IDEA配置]] | ||
+ | *[[丝路通:Flink实时统计引擎-创建MYSQL存储表]] | ||
+ | *[[丝路通:Flink实时统计引擎-自定义mysql sink ]] | ||
+ | *[[丝路通:Flink实时统计引擎]] | ||
+ | |||
+ | *[[Flink实时数据处理]] |
2020年9月12日 (六) 14:33的最新版本
简介
电商平台网站 G 随着业务量越来越大,公司希望了解用户在浏览公司站点时的行为习惯和消费习惯,需要收集用户在站点的实时访问数据,并根据用户的购买偏好进行实时商品推荐。
用户数据来源分为两部分,即用户的网站日志和业务数据库。公司大数据工程师需要通过这两类数据来源中的数据分析用户的消费偏好。
实训环境
(1) 使用 CentOS 6.10 的 Linux 操作系统搭建的 3 个节点。
(2) 使用 1.8 的 JDK 。
(3) 使用 3.4.6 版本的 ZooKeeper 。
(4) 使用 2.6.4 版本的 Hadoop 。
(5) 使用 1.2.1 版本的 Hive 。
(6) 使用 1.9.0 版本的 Flume 。
(7) 使用 2.3.1 的 Kafka 。
(8) 使用 1.10.1 版本的 Flink 。
实训步骤
- 数据采集与缓存
- Flume安装配置
- 编写Flume配置文件
- Kafka——集群安裝部署(自带Zookeeper)
- Kafka数据缓存
- Flink安装配置
- Flink开发环境:IDEA配置
- Flink点击流和销售额计算-创建MYSQL存储表
- Flink点击流和销售额计算-自定义mysql sink
- Flink点击流和销售额计算