大数据概述

来自CloudWiki
Cloud17讨论 | 贡献2020年4月3日 (五) 06:45的版本
跳转至: 导航搜索

问题

  • 微软Office软件的研发人员面临哪些痛点?
  • 微软公司怎么解决的?
  • 为了处理庞大的数据,王坚做了什么?(软件/硬件)
  • 什么改变了数据收集的方式 ?大数据和以前的数据有什么不一样 ?

https://www.bilibili.com/video/BV1rs4114771?p=3

大数据究竟是什么

Bg1-105.jpg

关于大数据(bigdata),麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。其实,到目前为止大数据还没有确切的定义,通过字面意思去理解,大数据简单的来说就是海量的数据。


大数据的意义

精明的亚马逊

亚马逊不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来,这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解,对于其货品种类、库存、仓储、物流、及广告业务上都有着极大的效益回馈。

亚马逊CTO Werner Vogels在CeBIT上关于大数据的演讲,向与会者描述了亚马逊在大数据时代的商业蓝图。长期以来,亚马逊一直通过大数据分析,尝试定位客户和和获取客户反馈。

Bg1-101.jpg


“在此过程中,你会发现数据越大,结果越好。为什么有的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持,”Vogels说,“一旦进入大数据的世界,企业的手中将握有无限可能。”从支撑新兴技术企业的基础设施到消费内容的移动设备,亚马逊的触角已触及到更为广阔的领域。


亚马逊推荐

亚马逊的各个业务环节都离不开“数据驱动”的身影。在亚马逊上买过东西的朋友可能对它的推荐功能都很熟悉,“买过X商品的人,也同时买过Y商品”的推荐功能看上去很简单,却非常有效,同时这些精准推荐结果的得出过程也非常复杂。

亚马逊预测

用户需求预测是通过历史数据来预测用户未来的需求。对于书、手机、家电这些东西——亚马逊内部叫硬需求的产品,你可以认为是“标品”——预测是比较准的,甚至可以预测到相关产品属性的需求。但是对于服装这样软需求产品,亚马逊干了十多年都没有办法预测得很好,因为这类东西受到的干扰因素太多了,比如:用户的对颜色款式的喜好,穿上去合不合身,爱人朋友喜不喜欢…… 这类东西太易变,买得人多反而会卖不好,所以需要更为复杂的预测模型。

亚马逊测试

你会认为亚马逊网站上的某段页面文字只是碰巧出现的吗?其实,亚马逊会在网站上持续不断地测试新的设计方案,从而找出转化率最高的方案。整个网站的布局、字体大小、颜色、按钮以及其他所有的设计,其实都是在多次审慎测试后的最优结果。

亚马逊记录

亚马逊的移动应用让用户有一个流畅的无处不在的体验的同时,也通过收集手机上的数据深入地了解了每个用户的喜好信息;更值得一提的是Kindle Fire,内嵌的Silk浏览器可以将用户的行为数据一一记录下来。

以数据为导向的方法并不仅限于以上领域,亚马逊的企业文化就是冷冰冰的数据导向型文化。对于亚马逊来说,大数据意味着大销售量。

谷歌的预警

Bg1-104.jpg

谷歌在2009年,甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。和疾控中心一样,谷歌也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。谷歌公司发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。

通过一个数学模型处理后,他们的预测与官方数据的相关性高达97%。2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。

婚恋大数据

Bg1-25.png

电商行业的现金收入源自数据,而婚恋网站的商业模型更是根植于对数据的研究。比如,作为一家婚恋网站,百合网不仅需要经常做一些研究报告,分析注册用户的年龄、地域、学历、经济收入等数据,即便是每名注册用户小小的头像照片,这背后也大有挖掘的价值。

百合网研究规划部李琦曾经对百合网上海量注册用户的头像信息进行分析,发现那些受欢迎头像照片不仅与照片主人的长相有关,同时照片上人物的表情、脸部比例、清晰度等因素也在很大程度上决定了照片主人受欢迎的程度。

例如,对于女性会员,微笑的表情、直视前方的眼神和淡淡的妆容能增加自己受欢迎的概率,而那些脸部比例占照片1/2、穿着正式、眼神直视没有多余pose的男性则更可能成为婚恋网站上的宠儿。

  • 你看好用大数据找对象吗 ?

原文链接:https://blog.csdn.net/crhacq798/article/details/85158187

大数据评估指标

Bg1-26.png

①Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

②Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

③Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

④Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

⑤Veracity:数据的准确性和可信赖度,即数据的质量。

500px

原文链接:https://blog.csdn.net/m0_37597006/article/details/79134560

数据存储单位

8 bit = 1 Byte 一字节
1024 B = 1 KB (KiloByte) 千字节
1024 KB = 1 MB (MegaByte) 兆字节
1024 MB = 1 GB (GigaByte) 吉字节
1024 GB = 1 TB (TeraByte) 太字节
1024 TB = 1 PB (PetaByte) 拍字节
1024 PB = 1 EB (ExaByte) 艾字节
1024 EB = 1 ZB (ZetaByte) 泽字节
1024 ZB = 1 YB (YottaByte) 尧字节
1024 YB = 1BB(Brontobyte)珀字节
1024 BB = 1 NB (NonaByte) 诺字节
1024 NB = 1 DB (DoggaByte)刀字节

大数据的结构

结构化数据

结构化数据,简单来说就是数据库。也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式,搜索引擎都支持标准的结构化数据标记。

结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS data 。

结构化最常见的就是具有模式的数据,结构化就是模式。大多数技术应用基于结构化数据

Ai2020-3-9.png

半结构化数据

半结构化数据和普通纯文本相比具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比更灵活。

常见的半结构化数据有XML和JSON ,某XML文件如下:

{
    "name": "中国",
    "province": [{
        "name": "黑龙江",
        "cities": {
            "city": ["哈尔滨", "大庆"]
        }
    }, {
        "name": "广东",
        "cities": {
            "city": ["广州", "深圳", "珠海"]
        }
    }, {
        "name": "台湾",
        "cities": {
            "city": ["台北", "高雄"]
        }
    }, {
        "name": "新疆",
        "cities": {
            "city": ["乌鲁木齐"]
        }
    }]
}

非结构化数据

Bg1-27.png

非结构化数据,是与结构化数据相对的,不适于由数据库二维表来表现,包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

其挑战性问题在于语言表达的灵活性和多样性,具体的非结构化数据处理技术包括:

(1)Web页面信息内容提取; (2)结构化处理(含文文本的词汇切分、词性分析、歧义处理等); (3)语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等) (4)文本建模(含向量空间模型、主题模型等) (5)隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等)

这些技术所涉及的技术较广,在情感分类、客户语音挖掘、法律文书分析等等许多领域都有广泛的应用价值。

大数据的意义

阿里巴巴创办人马云就曾经提到,未来的时代将不是IT时代,而是DT(Data Technology)时代,显示大数据对于阿里巴巴集团来说举足轻重。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。

大数据的价值体现在以下几个方面:

  • 对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;
  • 做小而美模式的中小微企业可以利用大数据做服务转型;
  • 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

大数据和互联网

Bg1-106.jpg

其实大数据是叫错掉的,“大数据”没有反映这个问题最本质的东西

其实大数据很早以前就有,只是光只有数据大是没有用处的。世界上最大的数据估计和互联网一点关系都没有,欧洲对撞实验室做一次碰撞的数据,可能一辈子都做不完,最大的数据估计在那里。

今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。所有东西在线这个事情,远远比“大”更反映本质。

像滴滴打车要用一个交通的数据,如果这些东西不在线,是没有用的。

为什么今天的淘宝数据值钱,因为他在线了。写在磁带、写在纸上的数据,根本没有用

反过来讲,在线让数据搜集变得非常容易。过去美国谁要做总统,需要做盖勒普调查,去街上拦2000个人,在纸上打个勾,预测就很准了。现在不用做这个事情,只要在twitter上分析每个人发的东西,就可以知道总统会是谁了。

而且盖勒普调查做完之后很难快速影响社会,现在数据可以反过来快速影响社会。就像打车软件,如果要影响出租车司机,可能比出租车公司更大,原因就是数据在线了。

有时候,一些石油、地质之类的公司来讲大数据,我就想不通这算不算大数据。他们的数据多是肯定的,但是他们的数据不在线,没有意义。

参考文档:https://www.huxiu.com/article/14477.html?f=member_article

引领未来——大数据发展趋势

数据的商品化

数学理论的重要性

与其他技术的融合化

新数据存储技术

遵章守法——大数据时代的法律问题

大数据时代法律的重要性

Ai2020-3-10.png

Ai2020-3-11.png

我们生活在一个法治社会,任何活动都不能触犯国家法律。特别是在大数据时代,数据保护已成全球性问题。在互联网及大数据技术极速发展过程中,信息安全问题逐渐成为涉及政治、经济、文化、社会、军事等各个领域的综合问题,越来越多地与政治外交、经贸发展、个人隐私权益等交织在一起。信息安全问题在当今时代日益凸显,随着大数据和人工智能技术的发展,数据的挖掘、整合、交易越来越便利,各种数据使用主体对个人信息掌握和使用越来越深入,大量个人信息在网络上存储、生成、使用和交换。随着人工智能及大数据相关技术日益深入我们的日常生活,技术变革带来数据获取渠道与使用方式的多样化,用户隐私权、安全面临越来越严峻的挑战。