1.7 大数据有多大

当前,对于计算机科学家和数据科学家来说,数据的重要性不亚于编写程序。根据IBM的统计,每天大约有2.5EB的数据被创建[1],在过去两年中被创建的数据量占当前世界全部数据总量的90%。IDC估计,到2025年,每年全球数据供应量将达到175ZB(相当于175万亿GB或1750亿TB)。下面是各种流行的有关数据度量的示例。

MB(Megabyte)

1MB大约是100万(实际上是220)字节。我们每天使用的许多文件都需要一个或数个MB存储空间。例如:

  • MP3音频文件—一分钟高质量的MP3文件需要1~2.4 MB存储空间。
  • 数码相机拍摄的照片—每张JPEG格式的照片需要大约8~10 MB存储空间。
  • 视频—智能手机能够以各种分辨率录制视频。每分钟的视频都需要许多MB的存储空间。例如,在某款iPhone上,将相机设置为以每秒30帧(FPS)的速度录制1080p视频,那么每分钟视频需要130MB存储空间,而以30FPS录制4K视频,每分钟则需要350MB存储空间。

GB(Gigabyte)

1GB大约是1,000 MB(实际上是230字节),一张双层DVD最多可存储8.5 GB数据,也就是可以存储:

  • 大约141小时的MP3音频文件。
  • 大约1,000张1,600万像素相机拍的照片。
  • 大约7.7分钟时长的以30 FPS录制的1080p视频。
  • 大约2.85分钟时长的以30 FPS录制的4K视频。

目前容量最大的超高清蓝光光盘可存储高达100 GB的视频。流式传输的4K电影每小时需要7~10 GB存储空间(高度压缩)。

TB(Terabyte)

1TB大约是1,000 GB字节(实际上是240字节),目前用于台式计算机的磁盘驱动器的大小最大为15 TB,可以存储:

  • 大约28年的MP3音频文件。
  • 大约168万张1,600万像素相机拍的照片。
  • 大约226小时时长的以30FPS录制的1080p视频。
  • 大约84小时时长的以30 FPS录制的4K视频。

Nimbus Data现在拥有的最大的固态硬盘(SSD)是100 TB,存储容量是上面列出的15TB的音频、照片或视频文件的6.67倍[2]

PB、EB和ZB

每天有近40亿人在线创建大约2.5quintillion字节的数据—2,500PB(每PB大约为1,000TB)或2.5EB(每EB大约为1,000PB)。AnalyticsWeek在2016年3月的文章中指出,五年内会有超过500亿台设备连接到Internet(大多数设备通过物联网连接,1.6.2节和16.8节会讨论),2020年,地球上的每个人平均1秒钟会产生1.7MB的新数据[3]。按照目前的地球人口数量(大约77亿人)计算,大致数据如下:

  • 每秒13 PB。
  • 每分钟780 PB。
  • 每小时46,800 PB(46.8EB)。
  • 每天1,123EB或者每天1.123 ZB(每个ZB大约等于1,000EB)。

这相当于每天新生成超过大约550万小时(超过600年)的4K视频或1,160亿张照片!

其他的大数据统计

如需了解更多有趣的实时大数据,可以查看https://www.internetlivestats.com,其中包含以下最新数据:

  • 谷歌搜索。
  • 推文。
  • YouTube上的视频。
  • Instagram上的照片。

可以单击每个统计了解更多信息。例如,统计信息显示2018年有超过2,500亿条推文。

其他一些有趣的大数据事实如下:

  • YouTube用户每小时上传24,000小时视频,他们每天在YouTube上观看视频接近10亿小时[4]
  • 每秒会出现51,773 GB(或51.773 TB)的互联网流量、7,894条推文、64,332条谷歌搜索和72,029个YouTube视频[5]
  • 在Facebook上每天有8亿“喜欢”[6]、6,000万个表情符号被发送[7],自该网站启动以来,搜索量超过20亿次的帖子超过2.5亿个[8]
  • 2017年6月,Planet公司的首席执行官Will Marshall表示,该公司拥有142颗卫星,每天对整个地球的陆地进行一次成像,每天将增加100万张照片和7 TB的新数据。根据这些数据,该公司与合作伙伴一起利用机器学习来提高作物产量、了解特定港口的船舶数量、跟踪森林的砍伐情况等。提到亚马逊森林的砍伐问题,他说:“过去,我们会在亚马逊河岸突然发现一个大空洞,而事实上这个空洞在几年前就已经开始形成了,而现在我们可以每天逐一统计地球上的每棵树。”[9]

Domo公司拥有一个制作精良的信息图表,名为“Data Never Sleeps 6.0”,该图表可以显示每分钟产生的数据量[10],包括:

  • 发送的473,400条推文。
  • 共享的2,083,333张Snapchat照片。
  • 被观看了97,222小时的Netflix视频。
  • 发送的12.99万亿条短信。
  • 发布的49,380个Instagram帖子。
  • 接通的176,220 通Skype电话。
  • 播放的750,000首Spotify歌曲。
  • 进行的3,877,140次Google搜索。
  • 被观看的4,333,560个YouTube视频。

多年来的计算能力

随着数据量变得越来越大,处理数据的计算能力也变得越来越强。通常以FLOPS(每秒浮点运算)来衡处理器的性能。在20世纪90年代早期到中期,最快的超级计算机速度是gigaflops(109 FLOPS)级。到20世纪90年代末,英特尔生产出了第一台teraflops(1012 FLOPS)级超级计算机。21世纪前十年的早期到中期,速度达到了数百teraflops。随后,IBM在2008年发布了第一台petaflops(1015 FLOPS)级超级计算机。目前,最快的超级计算机出现在位于美国能源部(DOE)橡树岭国家实验室(ORNL)的IBM峰会中,计算速度能够达到122.3petaflops。

分布式计算可以通过Internet连接数千台个人计算机,以产生更大的FLOPS。Folding @ home是一个分布式网络,在这个分布式网络中人们自愿将其个人计算机的资源贡献出来用于疾病研究和药物设计,截至2016年年末,Folding@home的计算能力超过了100 petaflops。像IBM这样的公司正在研究能够实现exaflops(1018 FLOPS)级别的超级计算机。

正在研发的量子计算机的运行速度可以达到现在“常规计算机”的180万亿倍![11]这个数字是非常令人震惊的,理论上,量子计算机在一秒钟内做的计算可以比自世界上第一台计算机出现以来的所有计算机所做的计算的总数还多。这种几乎难以想象的计算能力可能会对诸如比特币一类的基于区块链的加密货币造成严重破坏。工程师们已经在重新考虑区块链技术,以便为计算能力的大幅提升做好准备[12]

超级计算的发展最初是从研究实验室开始的,这些研究实验室花费了大量资金来实现高性能计算机,然后努力使“价格合理”的商用计算机系统甚至台式计算机、笔记本电脑、平板电脑和智能手机获得同样的性能。

计算能力的成本,特别是云计算的成本在持续下降。人们曾经问过这样一个问题:“我的系统需要多少计算能力才能满足我的峰值处理需求?”今天,这种想法已经变成“我可以随时在云上快速实现我最需要的计算任务吗?”,并且只需要为完成任务所使用的资源付费即可。

处理全世界的数据需要大量电力

来自全球互联网设备的数据正在呈爆炸式增长,处理这些数据需要巨大的电力。根据最近的一篇文章统计,2015年以来,处理数据的电力消耗以每年20%的速度增长,占世界总用电量的3%~5%。文章称,到2025年,用于数据处理的电量可能会达到世界总用电量的20%[13]

基于区块链的加密货币比特币是另一个耗电大户。处理一个比特币交易所使用的电力大约相当于一个美国家庭一周的用电量!电力的消耗来自比特币“矿工”证明交易数据有效的过程[14]

据测算,用于比特币交易的用电量甚至比许多国家的总用电量还要多[15]。比特币和以太坊(另一种流行的基于区块链的平台和加密货币)每年的用电量比以色列全国的用电量还要多,几乎与希腊持平[16]

摩根士丹利在2018年做出预测:“今年制造加密货币的电力消耗实际上可能超过该公司预测的2025年全球电动汽车的用电量。”[17]这种情况是不可持续的,特别是考虑到人们对基于区块链的应用的巨大兴趣,这一问题甚至比加密货币爆炸还要严重。区块链社区正致力于改善这一状况。[18] [19]

大数据的机遇

未来几年,数据可能会呈指数级增长。随着500亿台计算设备即将出现,我们很难预测未来几十年会增加多少数据。对于企业、政府、军队甚至个人来说,掌握所有这些数据至关重要。

有趣的是,一些有关大数据、数据科学、人工智能等领域的优秀成果来自一些著名的商业组织,如J. P. 摩根、麦肯锡等。由于大数据在众多领域不断取得重大成就,各大企业都无法拒绝大数据的吸引力。许多公司正在通过本书介绍的大数据、机器学习、深度学习和自然语言处理等技术进行大量投资并获得有价值的结果。这迫使它们的竞争对手也要进行相应的投资,从而使得对具有数据科学和计算机科学经验的专业人员的需求迅速增加,并且这种需求的增长可能会持续很多年。

1.7.1 大数据分析

数据分析是一门成熟且发展良好的学科。人们使用统计来分析数据最早可追溯到古埃及人[20],已有数千年的历史,而“数据分析”这个术语最早于1962年提出[21]。“大数据”这个术语最早是在2000年左右出现的[22],而“大数据分析”则最近才出现。

大数据的4个“V”[23] [24]

1. 数量(Volume)—全球产生的数据量呈指数级增长。

2. 速度(Velocity)—数据的生成速度、数据的传播速度,以及数据的变化速度都在快速增长[25] [26]

3. 多样性(Variety)—数据曾经只是字母和数字(即由字母字符、数字、标点符号和一些特殊字符组成)的组合。现如今,它还包括图像、音频、视频以及来自家庭、公司、汽车、城市等场所的呈爆炸数量的物联网传感器采集到的数据。

4. 真实性(Veracity)—或称数据的有效性(validity),是指数据的完整性、准确性,数据是否真实,在做出关键决策时我们能否相信这些数据。

目前,大多数数据都以不同的形式进行数字化,数量非常大,并且还在以惊人的速度传播。摩尔定律和相关观察使我们能够经济地存储数据,并以更快的速度处理和传递数据,而所有这些都随着时间的推移呈指数级增长。数字数据存储已经可以做到海量存储、价格便宜、体积小,这使得我们可以方便、经济地保存我们正在创建的所有数字数据[27]。这就是大数据。

Richard W. Hamming的名言—尽管是他在1962年说的—也可以为本书的其余部分奠定基调,如下:

“计算的目的是洞察力,而不是数字。”[28]

数据科学以惊人的速度产生更新、更深入、更微妙和更有价值的洞察力,为社会带来了变革。大数据分析是带来这一变革的原因之一。我们将在第16章讨论大数据知识的基础设施,包括NoSQL数据库的案例研究、Hadoop MapReduce编程、Spark、实时物联网流编程等。

1.7.2 数据科学和大数据正在带来改变:用例

数据科学领域正在迅速发展,因为它产生的重大成果正在发挥巨大的作用。下表列举了数据科学和大数据用例。希望本书中的用例和示例可以激励你在职业生涯中寻找新的用例。大数据分析可以带来更高的利润和更好的客户关系,甚至可以帮助体育团队在赢得更多比赛的同时减少对球员的支出[29] [30] [31]

数据科学用例

异常检测

残疾人辅助

汽车保险风险预测

自动隐藏式字幕

自动图像标题

自动投资

自治船舶

大脑图谱

来电识别

癌症诊断/治疗

碳减排

脸部识别

健身追踪

欺诈识别

打游戏

基因组学和医疗保健

地理信息系统(GIS)

GPS系统

健康改善

降低医院的再入院率

人类基因测序

身份防窃

预测天气敏感性

产品销售

预测分析

预防医学

预防疾病爆发

手语阅读

房地产评估

推荐系统

减少超额预订

乘车共享

风险最小化

数据科学用例

手写字分类

计算机视觉

信用评分

犯罪:预测位置

犯罪:预测累犯

犯罪:预测性警务

犯罪:预防

CRISPR基因编辑

作物产量提高

客户流失

客户体验

客户维系

消费者满意度

客户服务

客户服务代理

定制饮食

网络安全

数据挖掘

数据可视化

检测新病毒

乳腺癌诊断

心脏病诊断

诊断医学

灾难-受害者识别

动态驾驶路线规划

动态定价

电子健康记录

情绪检测

能耗降低

免疫治疗

保险定价

智能助手

物联网(IoT)和医疗器械监测

物联网和天气预报

库存控制

语言翻译

基于位置的服务

忠诚度计划

恶意软件检测

制图

营销

营销分析

音乐生成

自然语言翻译

新药

阿片类药物滥用预防

私人助理

个性化医疗

个性化购物

网络钓鱼消除

减少污染

精准医学

预测癌症存活率

预测疾病爆发

预测健康结果

预测学生入学率

机器人财务顾问

安全性增强

自动驾驶汽车

情感分析

共享经济

相似性检测

智慧城市

智能家居

智能电表

智能恒温器

智能交通控制

社交分析

社会图分析

垃圾邮件检测

空间数据分析

体育招聘和辅导

股市预测

学生表现评估

总结文字

远程医疗

恐怖袭击预防

防盗

旅行建议

趋势发现

视觉产品搜索

语音识别

声音搜索

天气预报


[1] https://www.ibm.com/blogs/watson/2016/06/welcome-to-the-world-of-a-i/.

[2] https://www.cinema5d.com/nimbus-data-100tb-ssd-worlds-largest-ssd/.

[3] https://analyticsweek.com/content/big-data-facts/.

[4] https://www.brandwatch.com/blog/youtube-stats/.

[5] http://www.internetlivestats.com/one-second.

[6] https://newsroom.fb.com/news/2017/06/two-billion-people-coming-together-on-facebook.

[7] https://mashable.com/2017/07/17/facebook-world-emoji-day/.

[8] https://techcrunch.com/2016/07/27/facebook-will-make-you-talk/.

[9] https://www.bloomberg.com/news/videos/2017-06-30/learning-from-planet-s-shoe-boxed-sized-satellites-video, June 30, 2017.

[10] https://www.domo.com/learn/data-never-sleeps-6.

[11] https://medium.com/@n.biedrzycki/only-god-can-count-that-fast-the-world-of-quantum-computing-406a0a91fcf4.

[12] https://singularityhub.com/2017/11/05/is-quantum-computing-an-existential-threat-to-blockchain-technology/.

[13] https://www.theguardian.com/environment/2017/dec/11/tsunami-of-data-could-consume-fifth-global-electricity-by-2025.

[14] https://motherboard.vice.com/en_us/article/ywbbpm/bitcoin-mining-electricity-consumption-ethereum-energy-climate-change.

[15] https://digiconomist.net/bitcoin-energy-consumption.

[16] https://digiconomist.net/ethereum-energy-consumption.

[17] https://www.morganstanley.com/ideas/cryptocurrencies-global-utilities.

[18] https://www.technologyreview.com/s/609480/bitcoin-uses-massive-amounts-of-energy-but-theres-a-plan-to-fix-it/.

[19] http://mashable.com/2017/12/01/bitcoin-energy/.

[20] https://www.flydata.com/blog/a-brief-history-of-data-analysis/.

[21] https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/.

[22] https://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an-etymological-detective-story/.

[23] https://www.ibmbigdatahub.com/infographic/four-vs-big-data.

[24] 有很多文章和论文在这个列表中添加了许多其他的“V”。

[25] https://www.zdnet.com/article/volume-velocity-and-variety-understanding-the-three-vs-of-big-data/.

[26] https://whatis.techtarget.com/definition/3Vs.

[27] http://www.lesk.com/mlesk/ksg97/ksg.html. [以下文章向我们介绍了迈克尔·莱斯克的这篇文章: https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history- of-data-science/.]

[28] Hamming, R. W., Numerical Methods for Scientists and Engineers (New York, NY., McGraw Hill, 1962). (以下文章向我们介绍了这本书以及所引用的这句名言:https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/.)

[29] Sawchik, T., Big Data Baseball: Math, Miracles, and the End of a 20-Year Losing Streak (New York, Flat Iron Books, 2015).

[30] Ayres, I., Super Crunchers (Bantam Books, 2007), pp. 7–10.

[31] Lewis, M., Moneyball: The Art of Winning an Unfair Game (W. W. Norton & Company, 2004).