数据采集与缓存

来自CloudWiki
Cloud17讨论 | 贡献2020年7月21日 (二) 04:44的版本
跳转至: 导航搜索

虚拟机环境

master 192.168.128.130            2G、1核
slave1 192.168.128.131	1.5G 、1核
slave2 192.168.128.132	 1.5G 、1核
slave3 192.168.128.133	 1.5G 、1核

已配置无密码登录、jdk、时间同步服务

集群环境

已安装Hadoop、Flume、Kafka、Flink、MYSQL、Zookeeper
Hadoop:ResourceManager(master)、NameNode(master)、SecondaryNameNode(master)、DataNode(slave1-slave3)、NodeManager(slave1-slave3)
Flume:master
Kafka:broker0(master)、broker1(slave1)、broker2(slave2)
Zookeeper:slave1、slave2、slave3
MYSQL:master
Flink:JobManager(master)、TaskManager(slave1-slave3)

开发环境

本地安装IDEA

本地安装JDK

模拟数据产生

通过python实现一个模拟数据产生的脚本

在Linux虚拟机中设置定时任务运行脚本,定时生产数据到文件

  • * * * * python /opt/data.py /opt/flinkproject/$(date +"\%Y-\%m-\%d-\%H-\%M-\%S").log 1000