“大数据概述”的版本间的差异

来自CloudWiki
跳转至: 导航搜索
(创建页面,内容为“==大数据究竟是什么== ==大数据概念== ==大数据评估指标== ①Volume:数据量大,包括采集、存储和计算的量都非常大。大数据…”)
 
第14行: 第14行:
  
 
⑤Veracity:数据的准确性和可信赖度,即数据的质量。
 
⑤Veracity:数据的准确性和可信赖度,即数据的质量。
————————————————
+
 
  
 
原文链接:https://blog.csdn.net/m0_37597006/article/details/79134560
 
原文链接:https://blog.csdn.net/m0_37597006/article/details/79134560
第34行: 第34行:
  
 
==大数据的结构==
 
==大数据的结构==
 +
===结构化数据===
 +
 +
结构化数据,简单来说就是数据库。也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式,搜索引擎都支持标准的结构化数据标记。
 +
 +
结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS data 。
  
 +
结构化最常见的就是具有模式的数据,结构化就是模式。大多数技术应用基于结构化数据。
 +
 +
===半结构化数据===
 +
 +
半结构化数据和普通纯文本相比具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比更灵活。
 +
 +
常见的半结构化数据有XML和JSON ,某XML文件如下:
 +
 +
<nowiki>{
 +
    "name": "中国",
 +
    "province": [{
 +
        "name": "黑龙江",
 +
        "cities": {
 +
            "city": ["哈尔滨", "大庆"]
 +
        }
 +
    }, {
 +
        "name": "广东",
 +
        "cities": {
 +
            "city": ["广州", "深圳", "珠海"]
 +
        }
 +
    }, {
 +
        "name": "台湾",
 +
        "cities": {
 +
            "city": ["台北", "高雄"]
 +
        }
 +
    }, {
 +
        "name": "新疆",
 +
        "cities": {
 +
            "city": ["乌鲁木齐"]
 +
        }
 +
    }]
 +
}</nowiki>
 +
 +
===非结构化数据===
 +
 +
非结构化数据,是与结构化数据相对的,不适于由数据库二维表来表现,包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。
 +
 +
其挑战性问题在于语言表达的灵活性和多样性,具体的非结构化数据处理技术包括:
 +
 +
(1)Web页面信息内容提取;
 +
(2)结构化处理(含文文本的词汇切分、词性分析、歧义处理等);
 +
(3)语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等)
 +
(4)文本建模(含向量空间模型、主题模型等)
 +
(5)隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等)
 +
 +
这些技术所涉及的技术较广,在情感分类、客户语音挖掘、法律文书分析等等许多领域都有广泛的应用价值。
 
==大数据的意义==
 
==大数据的意义==
 
奥巴马成功连任美国总统,其背后那个几十人构成的数据分析与挖掘团队至关重要。奥巴马团队筹得的第一个1亿美金中,98% 来自于小于250美金的小额捐款,而罗姆尼团队在得相同数额捐款的情况下,这一比例仅为31%。奥巴马胜选的原因不在于经济、外交政策或是妇女问题,而是赢在大数据!
 
奥巴马成功连任美国总统,其背后那个几十人构成的数据分析与挖掘团队至关重要。奥巴马团队筹得的第一个1亿美金中,98% 来自于小于250美金的小额捐款,而罗姆尼团队在得相同数额捐款的情况下,这一比例仅为31%。奥巴马胜选的原因不在于经济、外交政策或是妇女问题,而是赢在大数据!
第48行: 第99行:
 
通过一个数学模型处理后,他们的预测与官方数据的相关性高达97%。2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。  
 
通过一个数学模型处理后,他们的预测与官方数据的相关性高达97%。2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。  
  
————————————————
+
 
  
 
原文链接:https://blog.csdn.net/crhacq798/article/details/85158187
 
原文链接:https://blog.csdn.net/crhacq798/article/details/85158187

2019年8月26日 (一) 02:01的版本

大数据究竟是什么

大数据概念

大数据评估指标

①Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

②Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

③Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

④Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

⑤Veracity:数据的准确性和可信赖度,即数据的质量。


原文链接:https://blog.csdn.net/m0_37597006/article/details/79134560

数据存储单位

8 bit = 1 Byte 一字节
1024 B = 1 KB (KiloByte) 千字节
1024 KB = 1 MB (MegaByte) 兆字节
1024 MB = 1 GB (GigaByte) 吉字节
1024 GB = 1 TB (TeraByte) 太字节
1024 TB = 1 PB (PetaByte) 拍字节
1024 PB = 1 EB (ExaByte) 艾字节
1024 EB = 1 ZB (ZetaByte) 泽字节
1024 ZB = 1 YB (YottaByte) 尧字节
1024 YB = 1BB(Brontobyte)珀字节
1024 BB = 1 NB (NonaByte) 诺字节
1024 NB = 1 DB (DoggaByte)刀字节

大数据的结构

结构化数据

结构化数据,简单来说就是数据库。也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式,搜索引擎都支持标准的结构化数据标记。

结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS data 。

结构化最常见的就是具有模式的数据,结构化就是模式。大多数技术应用基于结构化数据。

半结构化数据

半结构化数据和普通纯文本相比具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比更灵活。

常见的半结构化数据有XML和JSON ,某XML文件如下:

{
    "name": "中国",
    "province": [{
        "name": "黑龙江",
        "cities": {
            "city": ["哈尔滨", "大庆"]
        }
    }, {
        "name": "广东",
        "cities": {
            "city": ["广州", "深圳", "珠海"]
        }
    }, {
        "name": "台湾",
        "cities": {
            "city": ["台北", "高雄"]
        }
    }, {
        "name": "新疆",
        "cities": {
            "city": ["乌鲁木齐"]
        }
    }]
}

非结构化数据

非结构化数据,是与结构化数据相对的,不适于由数据库二维表来表现,包括所有格式的办公文档、XML、HTML、各类报表、图片和咅频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

其挑战性问题在于语言表达的灵活性和多样性,具体的非结构化数据处理技术包括:

(1)Web页面信息内容提取; (2)结构化处理(含文文本的词汇切分、词性分析、歧义处理等); (3)语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等) (4)文本建模(含向量空间模型、主题模型等) (5)隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等)

这些技术所涉及的技术较广,在情感分类、客户语音挖掘、法律文书分析等等许多领域都有广泛的应用价值。

大数据的意义

奥巴马成功连任美国总统,其背后那个几十人构成的数据分析与挖掘团队至关重要。奥巴马团队筹得的第一个1亿美金中,98% 来自于小于250美金的小额捐款,而罗姆尼团队在得相同数额捐款的情况下,这一比例仅为31%。奥巴马胜选的原因不在于经济、外交政策或是妇女问题,而是赢在大数据!


亚马逊不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来,这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解,对于其货品种类、库存、仓储、物流、及广告业务上都有着极大的效益回馈。


谷歌在2009年,甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。和疾控中心一样,谷歌也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。谷歌公司发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。


通过一个数学模型处理后,他们的预测与官方数据的相关性高达97%。2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。


原文链接:https://blog.csdn.net/crhacq798/article/details/85158187