PySpark实战:什么是大数据

来自CloudWiki
跳转至: 导航搜索

什么是大数据

大数据是是一种行业术语,是指无法在一定时间范围内用单机软件工具进行捕捉、管理和处理的数据集合。

它需要使用分布式模式才能处理。

大数据必须依托云计算提供的分布式存储和计算能力,

大数据和人工智能关系密切,人工智能算法必须依据数据才能构建合适的模型。

大数据的特点

volume

velocity

variety

value

veracity

大数据的发展趋势

大数据是一种生产资料

与物联网和5G的结合

大数据理论的突破

数据公开和标准化

数据安全