大数据背景知识

来自CloudWiki
跳转至: 导航搜索

大数据,成为了时下IT界最炙手可热的名词,在全球引领了新一轮数据技术革命的浪潮,通过2012年的蓄势待发,2013年被称为世界大数据元年,标志着世界正式步入了大数据时代。

根据支付宝官方发布的数据,2016年双十一狂欢节总交易额超1,207亿,按照这个金额计算平均一分钟交易额约为8,382万元。根据淘宝数据显示,在双十一当天淘宝活跃用户超过一个亿,平均一分钟的活跃用户超过69,444个。一分钟之内会有4,310人访问亚马逊网站。优步(Uber)一分钟能获得694个订单。苹果(Apple)用户每分钟会下载51,000个应用。YouTube 用户每分钟会上传300个小时的新视频。Netflix 用户一分钟之内会观看77,160个小时的视频。在2015年世界互联网大会上,腾讯副总裁赖智明表示,微信红包一天的收发量是22亿个,平均一分钟红包收发量是1,527,777个。每分钟谷歌(Google)搜索引擎的搜索量可达278万次。脸书(Facebook) 用户每分钟点赞4,166,667次。

用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解,以求最大化地开发数据的功能,发挥数据的作用。Hadoop从某些方面来讲,与大数据结合紧密,它最擅长的事情就是可以高效地处理海量规模的数据,它就是为大数据而生的。

想要系统的认知大数据,必须要全面而细致的分解它,接下来将从3个层面展开介绍,如图1-2所示。

image.png

图1-2 大数据的3个层面

第1层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第2层面是技术,技术是大数据价值体现的手段和前进的基石。分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第3层面是实践,实践是大数据的最终价值体现。分别从互联网的大数据、政府的大数据、企业的大数据和个人的大数据4个方面来描绘大数据已经展现的美好景象以及即将实现的蓝图。

(1)理论层面认知大数据

大数据的特征定义

最早提出大数据时代到来的是麦肯锡,它是美国首屈一指的咨询公司,是研究大数据的先驱。在其报告《Big data: The nextfrontier for innovation, competition,and productivity》中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。

业界(IBM 最早定义)将大数据的特征归纳为4个V:

● 数据体量巨大(Volume)。大数据的起始计量单位至少是P(1,000个T)、E(100万个T)或Z(10亿个T)。

● 数据类型繁多(Variety)。如网络日志、视频、图片、地理位置信息等。

● 价值密度低,商业价值高(Value)。由于数据采集的不及时,数据样本不全面、数据不连续等等,可能会导致数据失真。但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。

● 处理速度快(Velocity)。在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。


本教程认同“大数据”(Big data)研究机构Gartner给出的定义。大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能处理具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的现在和未来

现在,大数据应用价值已在各行各业凸显,大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;大数据帮助城市预防犯罪、实现智慧交通、提升紧急应急能力;大数据帮助医疗机构建立患者的疾病风险跟踪机制、帮助医药企业提升药品的临床使用效果、帮助艾滋病研究机构为患者提供定制的药物;大数据帮助航空公司节省运营成本、帮助电信企业实现售后服务质量提升、帮助保险企业识别欺诈骗保行为、帮助快递公司监测分析运输车辆的故障险情以便提前预警维修、帮助电力公司有效识别预警即将发生故障的设备。

不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。从大数据的价值链条来分析,存在3种模式:

● 手握大数据,但是没有利用好。比较典型的是金融机构、电信行业、政府机构等。

● 没有数据,但是知道如何帮助有数据的人利用它。比较典型的是IT咨询和服务企业,比如埃森哲(Accenture)、IBM、甲骨文(Oracle)等。

● 既有数据,又有大数据思维。比较典型的是谷歌、亚马逊(Amazon)、万事达(Mastercard)等。

未来在大数据领域最具有价值的是2种事物:

● 拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益。

● 还未有被大数据触及过的业务领域。这些是还未被挖掘的金矿,即所谓的蓝海。

大数据带来的隐私问题

大数据时代,隐私保护是必须面对的问题,当在不同的网站上注册了个人信息后,可能这些信息已经被扩散出去了。当人们莫名其妙地接到各种邮件、电话、短信的滋扰时,不会想到自己的电话号码、邮箱、生日、购买记录、收入水平、家庭住址、亲朋好友等私人信息早就被各种商业机构非法存储或贱卖给其它任何有需要的企业或个人了。当微博、微信、QQ空间这些社交平台肆意的吞噬着数亿用户的各种信息时,就很难指望保护隐私权了,就算用户在某个地方删除了相关信息,但也许这些信息已经被其他人转载或保存了,更有可能已经被百度或谷歌存为快照,早就提供给任意用户搜索了。因此在大数据的背景下,很多人都在积极的抵制无底线的数字化,这种大数据和个体之间的博弈还会一直继续下去。

当很多互联网企业意识到隐私对于用户的重要性时,为了继续得到用户的信任,他们采取了很多办法,如谷歌公司承诺保留用户的搜索记录时间为9个月,有的浏览器厂商提供了无痕冲浪模式,还有社交网站拒绝公共搜索引擎的爬虫,并将提供出去的数据全部采取匿名方式处理等。

被誉为“大数据商业应用第一人”的维克托·迈尔·舍恩伯格,在《大数据时代》一书中给予了人们一些如何有效保护大数据背景下隐私权的建议:

● 减少信息的数字化。

● 建立隐私权立法。

● 增强数字隐私权基础设施(类似DRM数字版权管理)。

● 改变人类认知(接受忽略过去)。

● 创造良性的信息生态。

● 完全语境化。

(2)技术层面认知大数据

1 云技术

大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百甚至数万的电脑分配工作。它的特色在于对海量数据的挖掘。如今,在谷歌、亚马逊、脸书等一批互联网企业引领下,创建了一种行之有效的模式,即云计算提供基础架构平台,大数据应用可以运行在这个平台上。

业内认为两者的关系为:没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。

云计算和大数据之间的关系如图1-3所示。

image.png

图1-3 云计算与大数据的关系

两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务,并通过云计算技术的不断发展降低大数据业务的创新成本。云计算与大数据最明显的区分在两个方面:

第一,在概念上两者有所不同。云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。

第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。

2 分布式处理技术

分布式处理系统可以将不同地点、具有不同功能、拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理下,协调地完成信息处理任务。

大数据分布式处理系统的典型代表是Hadoop,其中,它有一个MapReduce软件框架,能以一种可靠、高效、可伸缩的方式对大数据进行分布式处理。MapReduce是谷歌提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式。MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(规约)的方式,在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机集群处理达到分布式运算的效果,再通过Reduce函数的程序将结果汇整,从而输出开发者需要的结果。  

3 存储技术

大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,大数据存储和大数据分析是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。

大数据存储服务商的典型代表是亚马逊,亚马逊的 S3 是一种面向 Internet 的存储服务。该服务旨在让开发人员能更轻松的进行网络规模计算。亚马逊的 S3 提供一个简明的Web服务界面,用户可以在任何地点通过访问Web服务界面,存储和检索任意大小的数据。此服务让所有开发人员都能访问同一个具备高扩展性、高可靠性、高安全性和高性价比的基础设施,亚马逊就利用它来运行其全球的网站网络。亚马逊的 S3云的存储对象已达到万亿级别,而且性能表现相当良好,目前已经拥有万亿跨地域存储对象,同时亚马逊提供的专业云计算服务Amazon Web Services(以下简称AWS)的对象执行请求也达到百万的峰值数量。目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。这些企业用户遍布190多个国家,几乎世界上的每个角落都有亚马逊用户的身影。

4 感知技术

大数据的采集和感知技术的发展是紧密联系的。以传感器技术、指纹识别技术、RFID技术、坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。

而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置信息被广泛的应用外,一些新的感知手段也开始登上舞台,比如iPhone 7在Home键内镶嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,即将面世的手机的嗅觉传感器可以监测从空气污染到危险的化学药品,微软正在研发可感知用户当前心情的智能手机技术,谷歌眼镜InSight的新技术可通过衣着进行人物识别。

其实,这些感知被逐渐捕获的过程就是世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。

所以说“人类以前延续的是文明,现在传承的是信息。”

(3)实践层面认知大数据

1 互联网的大数据

互联网上的数据每年增长50%,每两年便将翻一翻,而目前世界上90%以上的数据是最近几年才产生的。据互联网数据中心(IDC)预测,到2020年全球将总共拥有35 ZB的数据量。互联网是大数据发展的前哨阵地,随着Web 2.0时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆。

互联网上的大数据很难清晰地界定分类界限,先看看中国互联网公司三巨头百度公司、阿里巴巴集团、腾讯公司(简称BAT)的大数据:

百度拥有两种类型的大数据:用户搜索表征的需求数据、爬虫和阿拉丁获取的公共Web数据。百度通过对网页数据的爬取、网页内容的组织和解析,并进行语义分析,进而产生对搜索需求的精准理解,以便从海量数据中找准结果,实质上就是一个数据的获取、组织、分析和挖掘的过程。搜索引擎在大数据时代面临的挑战有:更多的暗网数据、更多的Web化但是没有结构化的数据和更多的Web化、结构化但是封闭的数据。

阿里巴巴拥有交易数据和信用数据,这两种数据更容易变现,挖掘出商业价值。除此之外,阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博社交数据和高德地图相关数据等。

腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从中挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

在信息技术更为发达的美国,除了行业知名的谷歌和脸书外,已经涌现了很多专门经营大数据类型产品的公司。

● Metamarkets:这家公司对推特网站(Twitter)用户的支付、签到和一些与互联网相关的问题进行了分析,为客户提供很好的数据分析服务。

● Tableau:主要集中于将海量数据以可视化的方式展现出来。Tableau为数字媒体提供了一个新的展示数据的方式。他们为用户提供了一个免费工具,任何人在没有编程知识背景的情况下都能制造出数据专用图表。这个软件还能对数据进行分析,并提供有价值的建议。

● ParAccel:他们向美国执法机构提供了数据分析,比如对15,000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。这个公司被称为“犯罪的预言者”。

● QlikTech:QlikTech旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。为了帮助开发者对这些数据进行分析,QlikTech提供了对原始数据进行可视化处理等功能的工具。

● GoodData:GoodData希望帮助客户从数据中挖掘财富。这家创业公司主要面向商业用户和IT企业高管,提供数据存储、性能报告、数据分析等工具。

举了很多例子,这里简要归纳一下,互联网中大数据的典型代表包括:

● 用户行为数据:精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等。

● 用户消费数据:精准营销、信用记录分析、活动促销、理财等。

● 用户地理位置数据:在线离线\线上到线下推广(简称O2O)、商家推荐、交友推荐等。

● 互联网金融数据:点对点网络借款(简称P2P)、小额贷款、支付、信用、供应链金融等。

● 用户社交数据:潮流趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等。

2 政府的大数据

美国政府曾宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。美国政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分。未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。

在国内,政府各个部门都握有构成社会基础的原始数据,如气象数据、金融数据、信用数据、电力数据、煤气数据、自来水数据、道路交通数据、客运数据、安全刑事案件数据等等。这些数据在每个政府部门里面看起来是单一的、静态的。但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。

具体来说,现在城市都在走向智能化,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,自2012年住建部发布《关于开展国家智慧城市试点工作的通知》至今,全国开建智慧城市的城市数超过290个,通信网络和数据平台等基础设施建设投资规模接近5,000亿元。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。

另外,作为国家的管理者,政府应该有勇气将手中的数据逐步开放,供给更多有能力的机构组织或个人来分析并加以利用,以加速造福人类。比如,美国政府就筹建了一个Data.gov网站,这个重要举措实现政府机构的数据公开。

3 企业的大数据

电商企业首席惊喜官们(CXO)最关注的还是报表曲线的背后能有怎样的信息,他们该做怎样的决策,其实这一切都需要通过数据来传递和支撑。在理想的世界中,大数据是巨大的杠杆,可以改变公司的影响力,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。

那么,哪些传统企业最需要大数据服务呢?先举几个例子:

● 对大量消费者提供产品或服务的企业(精准营销)。

● 做小而美模式的中长尾企业(服务转型)。

● 面临互联网压力之下必须转型的传统企业(生死存亡)。

对于企业的大数据,还有一种预测:随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。这里尤其有两个明显的现象:

● 外部数据的重要性日益超过内部数据。在互联互通的网络时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟。

● 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

对于提供大数据服务的企业来说,他们等待的是合作机会,就像微软史密斯说“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”

如今,一直做企业服务的巨头公司的优势将不复存在,随着模仿新兴互联网企业加入战局,开启了残酷竞争模式。为何会出现这种局面?从IT产业的发展来看,第一代 IT 巨头大多是ToB(即面向企业) 的,如IBM、微软、甲骨文、SAP、惠普(HP)这类传统 IT 企业。第二代 IT 巨头大多是ToC (即面向用户)的,如雅虎、谷歌、亚马逊、脸书这类互联网企业。大数据到来前,这两类公司彼此之间基本是井水不犯河水,但在当前这个大数据时代,这两类公司已经开始直接竞争。比如亚马逊已经开始提供云模式的数据仓库服务,直接抢占IBM、甲骨文的市场。这个现象出现的本质原因是:在互联网巨头的带动下,传统 IT 巨头的客户普遍开始从事电子商务业务,正是由于客户进入了互联网,所以传统 IT 巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网,他们业务必将萎缩。在进入互联网后,他们又必须将云技术、大数据等互联网最具有优势的技术通过封装打造成自己的产品再提供给企业。

以IBM为例,上一个十年,他们抛弃了计算机硬件,成功转向了软件和服务。目前他们将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源”。IBM积极的提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(Stream Computing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance),如图1-4所示。

image.png

图1-4 IBM大数据平台和应用程序框架

4 个人的大数据

个人的大数据概念很少有人提及,简单来说,就是与个人相关联的各种有价值数据信息被有效采集后,可由本人授权提供第三方进行处理和使用,并获得第三方提供的数据服务。

未来,每个用户可以在互联网上注册个人的数据中心,以存储个人的大数据信息。用户可确定哪些个人数据可被采集,并通过可穿戴设备或植入芯片等感知技术来采集捕获个人的大数据,如牙齿监控数据、心率数据、体温数据、视力数据、记忆能力、地理位置信息、社会关系数据、运动数据、饮食数据、购物数据等等。用户可以将其中的牙齿监测数据授权给某牙科诊所使用,由他们监控和使用这些数据,进而为用户制定有效的牙齿防治和维护计划。也可以将个人的运动数据授权提供给某运动健身机构,由他们监测自己的身体运动机能,并有针对地制定和调整个人的运动计划。还可以将个人的消费数据授权给金融理财机构,由他们帮用户制定合理的理财计划并对收益进行预测。当然,其中有一部分个人数据是无需个人授权即可提供给国家相关部门进行实时监控的,比如罪案预防监控中心可以实时地监控本地区每个人的情绪和心理状态,以预防自杀和犯罪的发生。

以个人为中心的大数据有这么一些特性:

● 数据仅留存在个人中心,其它第三方机构只被授权使用(数据有一定的使用期限),且必须接受“用后即焚”的监管。

● 采集个人数据应该明确分类,除了国家立法明确要求接受监控的数据外,其它类型数据都由用户自己决定是否被采集。

● 数据的使用只能由用户进行授权,数据中心可帮助用户监控个人数据的整个生命周期。

展望过于美好,也许实现个人数据中心的愿望还很遥远,也许这还不是解决个人数据隐私的最好方法,也许业界对大数据的无限渴求会阻止个人数据中心的实现,但是随着数据越来越多,在缺乏监管之后,必然会有一场激烈的博弈“到底是数据重要还是隐私重要”,“是以商业为中心还是以个人为中心”,让人们拭目以待。

参考文档:《Hadoop大数据构建与应用》

返回 大数据分析