实时推荐系统

来自CloudWiki
Cloud17讨论 | 贡献2020年7月21日 (二) 09:40的版本
跳转至: 导航搜索

商品实时推荐系统

简介

电商平台网站 G 随着业务量越来越大,公司希望了解用户在浏览公司站点时的行为习惯和消费习惯,需要收集用户在站点的实时访问数据,并根据用户的购买偏好进行实时商品推荐。

用户数据来源分为两部分,即用户的网站日志和业务数据库。公司大数据工程师需要通过这两类数据来源中的数据分析用户的消费偏好。

实训环境

(1) 使用 CentOS 6.10 的 Linux 操作系统搭建的 3 个节点。

(2) 使用 1.8 的 JDK 。

(3) 使用 3.4.6 版本的 ZooKeeper 。

(4) 使用 2.6.4 版本的 Hadoop 。

(5) 使用 1.2.1 版本的 Hive 。

(6) 使用 1.9.0 版本的 Flume 。

(7) 使用 2.3.1 的 Kafka 。

(8) 使用 1.10.1 版本的 Flink 。

实训前置步骤

(2) 在 Linux 终端执行命令 “/usr/local/zookeeper/bin/zkServer.sh start” 启动主节点的 zookeeper 。执行命令【 ssh slave1 “/usr/local/zookeeper/bin/zkServer.sh start” 】和【 ssh slave2 “/usr/local/zookeeper/bin/zkServer.sh start” 】启动子节点 slave1 和 slave2 的 zookeeper 。

(3) 在 Linux 终端执行命令 ”/usr/local/kafka/bin/kafka-server-start.sh -daemon /usr/local/kafka/config/server.properties” 启动主节点的 kafka 服务,执行命令【 ssh slave1 ”/usr/local/kafka/bin/kafka-server-start.sh -daemon /usr/local/kafka/config/server.properties” 】和【 ssh slave2 ”/usr/local/kafka/bin/kafka-server-start.sh -daemon /usr/local/kafka/config/server.properties” 】启动子节点的 kafka 服务。

(4) 在 Linux 终端执行命令“ $HADOOP_HOME/sbin/start-all.sh ”,或双击桌面上名称为“ hadoop ”的图标,启动 hadoop 集群。

(5) 在 Linux 终端执行命令【 /usr/local/flink/bin/start-cluster.sh 】启动 Flink 服务。

4. 实训注意事项

(1) 数据或代码文件可通过实训环境的“文件传输”助手进行上传下载,文件默认上传到环境中“ /data ”路径下,对于课程对应代码中出现的数据路径,应用时需根据实际情况进行修改。

(2) 由于实训环境搭建的 Hadoop 集群为 3 节点集群,分别是 master , slave1 , slave2 , mysql 的用户名为 root ,密码为 123456 ,对于工程中出现的连接配置,应用时注意修改。

(3) 若使用 crontab 命令时显示命令不存在,则通过【 yum install -y crontabs 】进行安装后执行命令【 service crond start & chkconfig crond on 】启动定时任务服务后即可使用。