大数据概述

来自CloudWiki
跳转至: 导航搜索

问题

  • 微软Office软件的研发人员面临哪些痛点?
  • 微软公司怎么解决的?
  • 为了处理庞大的数据,王坚做了什么?(软件/硬件)
  • 什么改变了数据收集的方式 ?大数据和以前的数据有什么不一样 ?

https://www.bilibili.com/video/BV1rs4114771?p=3

微软Office重生!一键生成PPT等,这款产品是否已近完美:https://baijiahao.baidu.com/s?id=1760626771421837204&wfr=spider&for=pc

大数据究竟是什么

Bigdata23082801.jpg

Bigdata23082805.jpg

Bg1-105.jpg

关于大数据(bigdata),麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

维基百科指出,大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集

通过字面意思去理解,大数据简单的来说就是海量的数据。

大数据的本质

Bg1-106.jpg

其实大数据是叫错掉的,“大数据”没有反映这个问题最本质的东西

其实大数据很早以前就有,只是光只有数据大是没有用处的。世界上最大的数据估计和互联网一点关系都没有,欧洲对撞实验室做一次碰撞的数据,可能一辈子都做不完,最大的数据估计在那里。

今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。所有东西在线这个事情,远远比“大”更反映本质。

像滴滴打车要用一个交通的数据,如果这些东西不在线,是没有用的。

为什么今天的淘宝数据值钱,因为他在线了。写在磁带、写在纸上的数据,根本没有用

反过来讲,在线让数据搜集变得非常容易。过去美国谁要做总统,需要做盖勒普调查,去街上拦2000个人,在纸上打个勾,预测就很准了。现在不用做这个事情,只要在twitter上分析每个人发的东西,就可以知道总统会是谁了。

而且盖勒普调查做完之后很难快速影响社会,现在数据可以反过来快速影响社会。就像打车软件,如果要影响出租车司机,可能比出租车公司更大,原因就是数据在线了。

有时候,一些石油、地质之类的公司来讲大数据,我就想不通这算不算大数据。他们的数据多是肯定的,但是他们的数据不在线,没有意义。

参考文档:https://www.huxiu.com/article/14477.html?f=member_article


大数据的意义

阿里巴巴创办人马云就曾经提到,未来的时代将不是IT时代,而是DT(Data Technology)时代,显示大数据对于阿里巴巴集团来说举足轻重。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。

大数据的价值体现在以下几个方面:

  • 对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;
  • 做小而美模式的中小微企业可以利用大数据做服务转型;
  • 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

智能世界,从数据管理走向数据运营

Bigdata23082802.jpg

数据驱动用户体验

Netfflix搜集了用户所有的“事件”数据,然后将这些数据都打上标签,从而了解什么类型、什么区域、什么年龄段的用户对于什么样的内容比较感兴趣,再根据这些数据分析的结果来选择,制作和推广影视内容

Bigdata23082814.jpg

Bigdata23082815.jpg

数据决定生产决策

Bigdata23082816.jpg

在加拿大西部油藏中,ARC Resources拥有多个勘探项目,进行常规石油和天然气的开发和生产。在其中规模最大的井场之一,该公司希望优化控制操作,并获取有价值的生产信息,以支持关键决策制定,排除设备故障,提高作业效率。 该公司的优化团队使用了罗克韦尔自动化ConnectedProduction解决方案,成功减弱了蜡的积聚,并减少了井中化学品注入。 通过作业背景信息分析,该解决方案帮助ARC Resources获得了生产预见性,从而简化了设备的故障排除流程。利用该系统的分析结果,开发商可以优化整个油井的生命周期,更好地应对潜在的系统和设备问题。

自实施分析以来,ARC Resources每口井每年的运营成本都降低了约3万美元。随后,该公司计划将其作为优化战略的关键部分。 通过进行油田环境分析,可以帮助开发商跟踪设备性能趋势变化,快速识别和响应影响开采、设备正常运行时间的事件,并主动采取措施防止停机问题发生,减少开发商的生产损失。当这些分析工作与业务系统相结合时,开发商可以根据市场变化和业务需求快速调整生产。 相比于以往,分析工作部署从未如此简单。开发商所需要的分析工作基础已经建立,新技术可以将数据的强大潜能直接交付给工作人员,并为他们提供有效背景分析。


数据驱动流程

Netflix是一家数据驱动的企业,他们的所有业务决策, 从内容制作、客户增长、业务运营、项目管理到资产管理,都是基于数据做决策的。Netflix的核心决策流程如下图所示:

Bigdata23082813.jpg

Bigdata23082812.jpg

2018年6月20日零时至6月28日24时,青海持续9天216小时全部使用清洁能源供电,所有用电均来自水、太阳能以及风力发电产生的清洁能源,青海全省实现用电“零”排放,继去年的“绿电7日”之后再创世界纪录。

这背后就是电力供应与市场用电需求的精准匹配,华为与青海电力公司共建了大数据中心,通过发电、配电和用电三方数据共享和分析,实现发用电预测准确率达到97%以上

链接:https://m.gmw.cn/baijia/2018-06/28/29512560.html

链接:https://baijiahao.baidu.com/s?id=1633871565068383159&wfr=spider&for=pc

政府大数据策略

欧美主要国家的大数据战略

·美国总统科技顾问委员会发布了NITRD编写的《联邦大数据研究和开发战略计划》,以确保国家在研发上的持续领导;提高国家应对社会压力的能力以及通过研究和开发面向国家和世界的环境问题。

·由英国商务、创新和技能部牵头编制的《英国数据能力发展战略规划》发布。该战略旨在使英国成为大数据分析的世界领跑者。

·欧盟委员会发布《打造欧洲数据经济》报告,对数据驱动型经济的潜力、面临的障碍、解决方案等进行了分析总结。

·澳大利亚政府信息管理办公室大数据工作组发布了《公共服务大数据战略》,旨在使澳大利亚在该领域跻身全球领先水平。

·日本政府经内阁会议决定了2014年度版《制造业白皮书》。白皮书中指出,日本制造业在积极发挥IT作用方面落后于欧美,建议转型为利用大数据的“下一代”制造业。

中国实施国家大数据战略

  • 实施国家大数据战略加快建设数字中国:
    • 要推动大数据技术产业创新发展;
    • 要构建以数据为关键要素的数字经济
    • 要运用大数据提升国家治理现代水平
    • 要运用大数据促进保障和改善民生;
    • 要切实保障国家数据安全。

2021年11月30日,工业和信息化部发布《“十四五”大数据产业发展规划,要求到2025年我国大数据产业测算规模突破3万亿元,年均复合增长率保持25% 左右,创新力强、附加值高、自主可控的现代化大大数据产业体系基本形成。

大数据评估指标

Bigdata23082804.jpg

Bg1-26.png

①Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

②Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

③Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

④Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

⑤Veracity:数据的准确性和可信赖度,即数据的质量。

500px

原文链接:https://blog.csdn.net/m0_37597006/article/details/79134560

数据存储单位

8 bit = 1 Byte 一字节
1024 B = 1 KB (KiloByte) 千字节
1024 KB = 1 MB (MegaByte) 兆字节
1024 MB = 1 GB (GigaByte) 吉字节
1024 GB = 1 TB (TeraByte) 太字节
1024 TB = 1 PB (PetaByte) 拍字节
1024 PB = 1 EB (ExaByte) 艾字节
1024 EB = 1 ZB (ZetaByte) 泽字节
1024 ZB = 1 YB (YottaByte) 尧字节
1024 YB = 1BB(Brontobyte)珀字节
1024 BB = 1 NB (NonaByte) 诺字节
1024 NB = 1 DB (DoggaByte)刀字节

大数据处理与传统数据处理的差异

Bigdata23082806.jpg

大数据的分类

结构化数据

结构化数据,简单来说就是数据库。也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式,搜索引擎都支持标准的结构化数据标记。

结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS data 。

结构化最常见的就是具有模式的数据,结构化就是模式。大多数技术应用基于结构化数据

Ai2020-3-9.png

半结构化数据

半结构化数据和普通纯文本相比具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比更灵活。

常见的半结构化数据有XML和JSON ,某JSON文件如下:

{
    "name": "中国",
    "province": [{
        "name": "黑龙江",
        "cities": {
            "city": ["哈尔滨", "大庆"]
        }
    }, {
        "name": "广东",
        "cities": {
            "city": ["广州", "深圳", "珠海"]
        }
    }, {
        "name": "台湾",
        "cities": {
            "city": ["台北", "高雄"]
        }
    }, {
        "name": "新疆",
        "cities": {
            "city": ["乌鲁木齐"]
        }
    }]
}

非结构化数据

Bg1-27.png

非结构化数据,是与结构化数据相对的,不适于由数据库二维表来表现,包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

其挑战性问题在于语言表达的灵活性和多样性,具体的非结构化数据处理技术包括:

(1)Web页面信息内容提取; (2)结构化处理(含文文本的词汇切分、词性分析、歧义处理等); (3)语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等) (4)文本建模(含向量空间模型、主题模型等) (5)隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等)

这些技术所涉及的技术较广,在情感分类、客户语音挖掘、法律文书分析等等许多领域都有广泛的应用价值。

Bigdata23082803.jpg

大数据应用的主要计算模式

批处理计算

针对大规模数据的批量处理。主要技术有MapReduce、Spark等。

流计算

针对流数据的实时计算处理。主要技术有Spark、Storm、Flink、Flume、Dstream等。

图计算

针对大规模图结构数据的处理。主要技术有GraphX、Gelly、Giraph、PowerGraph等。

查询分析计算

大规模数据的存储管理和查询分析 主要技术有Hive、Impala、Dremel、Cassandra等

Hive是基于Hadoop的数据仓库工具,用于查询、管理分布式存储中的大数据集,提供完整的SQL查询功能,可以将结构化的数据文件映射为一张数据表。而Hive提供了一种类SQL语言,这可以将SQL语句转换为MapReduce任务运行。

Bigdata23082818.jpg

大数据的计算任务

IO密集型任务

  • 涉及到网络、磁盘、内存IO的任务都是IO密集型任务(IO-Intensive )
  • 特点:CPU消耗很少,任务的大部分时间都在等待lo操作完成(因为IO的速度远远低于CPU和内存的速度)。
  • 对于IO密集型任务,任务越多,CPU效率越高,但也有一个限度。常见的大部分任务都是IO密集型任务,比如Web应用。
  • IO密集型任务执行期间,99%的时间都花在lo上,花在CPU上的时间很少,因此提升网络传输效率和读写效率是重中之重。

计算密集型任务

  • 计算密集型任务(CPU-Intensive )的特点:要进行大量的计算,消耗CPU资源。比如计算圆周率、对视频进行高清解码等等,全靠CPU的运算能力。
  • 计算密集型任务虽然也可以用多任务完成,但是任务越多,花在任务切换的时间就越多,
  • CPU执行任务的效率就越低,所以,要最高效地利用CPU,计算密集型任务同时进行的数量应当等于CPU的核心数。
  • 计算密集型任务由于主要消耗CPU资源,因此,代码运行效率至关重要。

数据密集型任务

数据密集型应用(Data-Intensive )与计算密集型应用是存在区别的。

传统的计算密集型应用往往通过并行计算方式在紧耦合的超级计算机上运行少量计算作业,

即一个计算作业同时占用大量计算机节点。

数据密集型应用的特点则主要是:

  • 大量独立的数据分析处理作业可以分布在松耦合的计算机集群系统的不同节点上运行;
  • 高度密集的海量数据I/O吞吐需求;
  • 大部分数据密集型应用都有个数据流驱动的流程。

数据型密集计算的典型应用可概括为以下三类:

  • 日志分析
  • 软件即服务( Saas )应用
  • 大型企业的商务智能应用

大数据的应用

Bigdata23082807.jpg

金融

Bigdata23082808.jpg

Bigdata23082901.jpg

教育

Bigdata23082809.jpg

政府公共安全

Bigdata23082810.jpg


交通规划

Bigdata23082811.jpg

清洁能源

Bigdata23082812.jpg

2018年6月20日零时至6月28日24时,青海持续9天216小时全部使用清洁能源供电,所有用电均来自水、太阳能以及风力发电产生的清洁能源,青海全省实现用电“零”排放,继去年的“绿电7日”之后再创世界纪录。

这背后就是电力供应与市场用电需求的精准匹配,华为与青海电力公司共建了大数据中心,通过发电、配电和用电三方数据共享和分析,实现发用电预测准确率达到97%以上

链接:https://m.gmw.cn/baijia/2018-06/28/29512560.html

链接:https://baijiahao.baidu.com/s?id=1633871565068383159&wfr=spider&for=pc

零售

亚马逊:

亚马逊不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来,这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解,对于其货品种类、库存、仓储、物流、及广告业务上都有着极大的效益回馈。

亚马逊CTO Werner Vogels在CeBIT上关于大数据的演讲,向与会者描述了亚马逊在大数据时代的商业蓝图。长期以来,亚马逊一直通过大数据分析,尝试定位客户和和获取客户反馈。

Bg1-101.jpg


“在此过程中,你会发现数据越大,结果越好。为什么有的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持,”Vogels说,“一旦进入大数据的世界,企业的手中将握有无限可能。”从支撑新兴技术企业的基础设施到消费内容的移动设备,亚马逊的触角已触及到更为广阔的领域。


亚马逊推荐

亚马逊的各个业务环节都离不开“数据驱动”的身影。在亚马逊上买过东西的朋友可能对它的推荐功能都很熟悉,“买过X商品的人,也同时买过Y商品”的推荐功能看上去很简单,却非常有效,同时这些精准推荐结果的得出过程也非常复杂。

亚马逊预测

用户需求预测是通过历史数据来预测用户未来的需求。对于书、手机、家电这些东西——亚马逊内部叫硬需求的产品,你可以认为是“标品”——预测是比较准的,甚至可以预测到相关产品属性的需求。但是对于服装这样软需求产品,亚马逊干了十多年都没有办法预测得很好,因为这类东西受到的干扰因素太多了,比如:用户的对颜色款式的喜好,穿上去合不合身,爱人朋友喜不喜欢…… 这类东西太易变,买得人多反而会卖不好,所以需要更为复杂的预测模型。

亚马逊测试

你会认为亚马逊网站上的某段页面文字只是碰巧出现的吗?其实,亚马逊会在网站上持续不断地测试新的设计方案,从而找出转化率最高的方案。整个网站的布局、字体大小、颜色、按钮以及其他所有的设计,其实都是在多次审慎测试后的最优结果。

亚马逊记录

亚马逊的移动应用让用户有一个流畅的无处不在的体验的同时,也通过收集手机上的数据深入地了解了每个用户的喜好信息;更值得一提的是Kindle Fire,内嵌的Silk浏览器可以将用户的行为数据一一记录下来。

以数据为导向的方法并不仅限于以上领域,亚马逊的企业文化就是冷冰冰的数据导向型文化。对于亚马逊来说,大数据意味着大销售量。

公共健康

Bg1-104.jpg

谷歌在2009年,甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。和疾控中心一样,谷歌也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。谷歌公司发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。

通过一个数学模型处理后,他们的预测与官方数据的相关性高达97%。2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。

人口婚恋

Bg1-25.png

电商行业的现金收入源自数据,而婚恋网站的商业模型更是根植于对数据的研究。比如,作为一家婚恋网站,百合网不仅需要经常做一些研究报告,分析注册用户的年龄、地域、学历、经济收入等数据,即便是每名注册用户小小的头像照片,这背后也大有挖掘的价值。

百合网研究规划部李琦曾经对百合网上海量注册用户的头像信息进行分析,发现那些受欢迎头像照片不仅与照片主人的长相有关,同时照片上人物的表情、脸部比例、清晰度等因素也在很大程度上决定了照片主人受欢迎的程度。

例如,对于女性会员,微笑的表情、直视前方的眼神和淡淡的妆容能增加自己受欢迎的概率,而那些脸部比例占照片1/2、穿着正式、眼神直视没有多余pose的男性则更可能成为婚恋网站上的宠儿。

  • 你看好用大数据找对象吗 ?

原文链接:https://blog.csdn.net/crhacq798/article/details/85158187


企业所面临的挑战和机遇

面对挑战,传统数据处理遭遇天花板

Bigdata23083001.jpg

挑战—︰业务部门无清晰的大数据需求

  • 很多企业业务部门不了解大数据的应用场景和价值,因此难以提出大数据的准确需

求。由于业务部门需求不清晰,大数据部门又是非盈利部门,企业决策层担心投入产出 比不高,在搭建大数据部门时犹豫不决,甚至由于暂时没有应用场景,删除了很多有价 值的历史数据。

挑战二:企业内部数据孤岛严重

  • 企业启动大数据最重要的挑战就是数据的碎片化。

在大型企业中,不同类型的数据常常散落在不同部门,使得同一企业内部数据无法共享, 无法发挥大数据的价值。

挑战三:数据可用性低,质量差

  • 很多大中型企业每天会产生大量的数据,但很多企业在大数据的预处理阶段很不重

视,导致数据处理很不规范。大数据预处理阶段需要抽取数据把数据转化为方便处理的 数据类型,对数据进行清洗和去噪,以提取有效的数据等操作。Sybase的数据表明,高 质量的数据可用性提高10%,企业效益提高20%以上。

挑战四:数据相关管理技术和架构

  • 传统的数据库不适合处理PB级别的数据
  • 传统的数据库没有考虑数据的多样性,尤其对结构化数据、半结构化数据和非结构

化数据的兼容。

  • 海量数据运维需要保证数据稳定,支持高并发的同时减少服务器负载。

挑战五:数据安全问题

  • 网络化生活使得犯罪分子更容易获得关于人的信息,也有了更多不易被追踪和防范

的犯罪手段。

  • 如何保证用户的信息安全成为大数据时代非常重要的课题。此外,大数据的不断增

加,对数据存储的物理安全性要求会越来越高,从而对数据的多副本与容灾机制也提出 更高的要求。

挑战六:大数据人才缺乏

·大数据建设的每一个环节都需要依靠专业人员完成,因此必须培养和造就一支掌握 大数据,懂管理,有大数据应用经验的大数据建设专业队伍。全球每年将新增数十万个 大数据相关的工作岗位,未来将会出现100万以上的人才缺口。因此高校和企业共同努力 去培养和挖掘人才。

挑战七:数据开放与隐私的权衡

·在大数据应用日益重要的今天,数据资源的开放共享已经成为在数据大战中保持优 势的关键。但是数据的开放不可避免的会侵害一些用户的隐私。如何在推动数据全面开 放,应用和共享的同时有效地保护公民和企业隐私,逐步加强隐私立法,将是大数据时 代的一个重大挑战。

遵章守法——大数据时代的法律问题

大数据时代法律的重要性

Ai2020-3-10.png

Ai2020-3-11.png

我们生活在一个法治社会,任何活动都不能触犯国家法律。特别是在大数据时代,数据保护已成全球性问题。在互联网及大数据技术极速发展过程中,信息安全问题逐渐成为涉及政治、经济、文化、社会、军事等各个领域的综合问题,越来越多地与政治外交、经贸发展、个人隐私权益等交织在一起。信息安全问题在当今时代日益凸显,随着大数据和人工智能技术的发展,数据的挖掘、整合、交易越来越便利,各种数据使用主体对个人信息掌握和使用越来越深入,大量个人信息在网络上存储、生成、使用和交换。随着人工智能及大数据相关技术日益深入我们的日常生活,技术变革带来数据获取渠道与使用方式的多样化,用户隐私权、安全面临越来越严峻的挑战。