PySpark实战:什么是大数据
来自CloudWiki
什么是大数据
大数据是是一种行业术语,是指无法在一定时间范围内用单机软件工具进行捕捉、管理和处理的数据集合。
它需要使用分布式模式才能处理。
大数据必须依托云计算提供的分布式存储和计算能力,
大数据和人工智能关系密切,人工智能算法必须依据数据才能构建合适的模型。
大数据的特点
volume
velocity
variety
value
veracity
大数据的发展趋势
大数据是一种生产资料
与物联网和5G的结合
大数据理论的突破
数据公开和标准化
数据安全