当前位置:祁门县鸿庄家庭农场科技三分钟了解大数据是什么
三分钟了解大数据是什么
2022-08-12

先看几个大数据的应用的例子:

洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。

google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。

统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。

麻省理工学院利用手机定位数据和交通数据建立城市规划。

梅西百货的实时定价机制,根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。

Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势。”Laney分析到。

PredPol Inc. 公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。

American Express(美国运通,AmEx)和商业智能。以往,AmEx只能实现事后诸葛式的报告和滞后的预测。“传统的BI已经无法满足业务发展的需要。”Laney认为。于是,AmEx开始构建真正能够预测忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后四个月中流失的客户,已经能够识别出其中的24%。

大数据实践 基础架构先行Express Scripts Holding Co.的产品制造。该公司发现那些需要服药的人常常也是最可能忘记服药的人。

因此,他们开发了一个新产品:会响铃的药品盖和自动的电话呼叫,以此提醒患者按时服药。

Infinity Property & Casualty Corp.的黑暗数据(dark data)。Laney对于黑暗数据的定义是,那些针对单一目标而收集的数据,通常用过之后就被归档闲置,其真正价值未能被充分挖掘。在特定情况下,这些数据可以用作其他用途。该公司用累积的理赔师报告来分析欺诈案例,通过算法挽回了1200万美元的代位追偿金额。

利用起互联网大数据,对消费者的喜好进行判定。商户可以为消费者定制相应的独特的个性服务,甚至可以在一些商品或者服务上匹配用户心情等等。商家还可以根据大数据为消费者提供其可能会喜好的特色产品,活动,小而美的小众商品等等 。

地产业的升级改造,具有令人兴奋的商业前景。一个Shopping Mall的投资往往高达数十亿元,设想一下,如果智能化升级能够让一个Shopping Mall的顾客数量和人均消费提升30%-50%,为此投入几百万元甚至上千万元对于投资方来说非常划算,那么仅仅针对国内Shopping Mall的智能化升级就是一个千亿元级别的市场。

经典大数据案例-沃尔玛经典营销:啤酒与尿布

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店, 直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提 出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪 90 年代尝试将 Aprior 算 法引入到 POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

大数据价值

谷歌搜索、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化,这就是大数据的价值。大数据也日益显现出对各个行业的推进力。

大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。从数据量来说,已进入大数据时代,但硬件明显已跟不上数据发展的脚步。

以往大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,而提及“大数据”,通常是指解决问题的一种方法,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出一种新的商业模式。

虽然大数据在国内还处于初级阶段,但是商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。

未来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。据统计,大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。

大数据的存储

随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看,这一变化对存储厂商和其他IT基础设施厂商未尝不是一个机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,他们开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。

针对大数据的世界领先品牌存储企业有:IBM、EMC、LSISandForce 、 云创存储、INTEL、惠普、戴尔、甲骨文、日立、赛门铁克等。

大数据定义

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率1024(2的十次方)来计算:

8bit= 1Byte

1KB= 1,024 Bytes

1MB= 1,024 KB = 1,048,576 Bytes

1GB= 1,024 MB = 1,048,576 KB

1TB= 1,024 GB = 1,048,576 MB

1PB= 1,024 TB = 1,048,576 GB

1EB= 1,024 PB = 1,048,576 TB

1ZB= 1,024 EB = 1,048,576 PB

1YB= 1,024 ZB = 1,048,576 EB

1BB= 1,024 YB = 1,048,576 ZB

1NB= 1,024 BB = 1,048,576 YB

1 DB = 1,024 NB = 1,048,576 BB

请上wydclub.com主页获取更多内容。如您发现无忧岛网文章页面内容过少的话,请检查浏览器拦截设置是否正确