- 互联网金融(第2版)
- 何平平 范思媛 黄健钧编著
- 5643字
- 2024-12-27 20:36:27
1.3.3 大数据理论
1.大数据的概念与内涵
“大数据”的概念早已有之,1980年美国著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据赞颂为“第三次浪潮的华彩乐章”。但是直到近几年,“大数据”才与“云计算”“物联网”一道,成为互联网信息技术行业的流行词汇。2008年,在谷歌成立10周年之际,著名的《自然》杂志出版了一期专刊,专门讨论未来与大数据处理相关的一系列技术问题和挑战,其中就提出了“Big Data”的概念。2011年5月,在以“云计算相遇大数据”为主题的EMC World 2011会议中,EMC也抛出了“Big Data”概念。所以,很多人认为,2011年是大数据元年。
此后,诸多专家、机构从不同角度提出了对大数据的理解。当然,由于大数据本身具有较强的抽象性,国际上尚没有一个统一公认的定义。维基百科认为大数据是超过当前现有的数据库系统或数据库管理工具处理能力,处理时间超过客户能容忍的时间的大规模复杂数据集。全球领先的企业数据集成软件商Informatica认为大数据包括海量数据和复杂数据类型,其规模超过传统数据库系统进行管理和处理的能力。亚马逊网络服务(AWS)大数据科学家John Rauser提出一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。百度搜索的定义为:“大数据”是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。互联网周刊的定义为:“大数据”的概念远不止大量的数据(TB级)和处理大量数据的技术,或者所谓的“4个V”之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未有的方式,通过对海量数据的分析,获得具有巨大价值的产品和服务或深刻的洞见,最终形成变革之力。
综合上述不同的定义,我们认为,大数据是指由数据巨大、结构复杂、类型众多的数据构成的数据集合,无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理。因此,大数据最重要的不是如何定义,而是如何使用。它强调的不仅是数据的规模,更强调从海量数据中快速获得有价值的信息和知识的能力。大数据定义至少应包括以下两个方面:一是数量巨大,二是无法使用传统工具处理。
大数据不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。大数据概念里的“大”是指数据所具有的量级大以及数据的多样化。
2.大数据特征
大数据的定义体现了大数据的4V特征:数据体量巨大(volume),数据类型繁多(variety),数据、时效性高(velocity)以及数据价值密度低(value)。大数据特征如图1.2所示。
1)体量巨大
大数据的来源广泛,既有来自人类活动的,也有来自计算机和物理世界的。①来自人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等信息。②来自计算机:各类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计、日志等自动生成的信息。③来自物理世界:各类数字设备、科学实验与观察所采集的数据。如摄像头所不断产生的数字信号,医疗物联网不断产生的人的各项特征值,气象业务系统采集设备所收集的海量数据,等等。
图1.2 大数据特征
数据集合的规模不断扩大,已经从GB级增加到TB级再增加到PB级。近年来,数据量甚至开始以EB和ZB来计数。例如,一个中型城市的视频监控信息一天就能达到几十TB的数据量。百度首页导航每天需要提供的数据超过1~5PB,如果将这些数据打印出来,会超过5000亿张A4纸。
2)类型繁多
“variety”意味着要在海量、种类繁多的数据间发现其内在关联。在互联网时代,各种设备连成一个整体,个人在这个整体中既是信息的收集者也是信息的传播者,加速了数据量的爆炸式增长和信息多样性。这就必然促使我们要在各种各样的数据中发现数据信息之间的相互关联,把看似无用的信息转变为有效的信息,从而作出正确的判断。
3)时效性高、速度快
Velocity可以理解为更快地满足实时性需求。时效性高主要表现为数据流和大数据的移动性,要求对大数据进行实时分析而非批量式分析,数据的输入、处理与丢弃必须立竿见影而非事后见效,一般要在1秒时间给出分析结果,否则处理结果就是过时和无效的。实时处理的要求是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。
4)商业价值高、价值密度低
大数据特征里最关键的一点就是“value”,“value”的意思是指大数据的价值密度低。大数据时代,数据的价值就像在一堆沙子里面淘金,数据量越大,里面真正有价值的东西就越少。现在的任务就是在这些ZB、PB级的数据里,利用云计算、智能化开源实现平台等技术,提取出有价值的信息,将信息转化为知识,发现规律,最终用知识促成正确的决策和行动。
大数据的类型有三种,即非结构化数据、半结构化数据和结构化数据。非结构化数据是指没有固定格式的数据,如PDF、E-mail和一般文档。半结构化数据是指类似XML和HTML、有一定加工处理的数据。结构化数据则是指具备一定格式,便于存储、使用,并可从中提取信息的数据,例如,传统的各种事务型数据库中的数据。
3.大数据发展趋势
虽然大数据目前仍处在发展的起步阶段,尚存在着诸多困难与挑战,但我们相信,随着时间的推移,大数据未来的发展前景非常可观。
1)数据将呈现指数级增长
近年来,随着社交网络、移动互联、电子商务、互联网和云计算的兴起,音频、视频、图像、日志等各类数据正在以指数级增长。2011年,全球数据规模为1.8ZB,可以填满575亿个32GB的iPad平板电脑,这些iPad可以在中国修建两座长城。而在2020年,全球数据量达到了60ZB,如果把它们全部存入蓝光光盘,这些光盘的重量和636艘尼米兹号航母的重量相当。
2)数据将成为最有价值的资源
在大数据时代,数据成为继土地、劳动、资本之后的新要素,构成企业未来发展的核心竞争力。《华尔街日报》在一份题为《大数据,大影响》的报告中宣传,数据已经成为一种新的资产类别,就像货币或黄金一样。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源”。随着大数据技术的不断发展,大数据将成为机构和企业的重要资产和争夺的焦点。谷歌、苹果、亚马逊、阿里巴巴、腾讯等互联网巨头运用大数据获得了商业上更大的成功,并且将会继续通过大数据来提升自己的竞争力。
3)大数据和传统行业智能融合
通过对大数据的收集、整理、分析和挖掘,我们不仅可以发现城市治理难题,掌握经济运行趋势,还能够驱动精确设计和精确生产模式,引领服务业的精确化和增值化,创造互动的创意产业新形态。麦当劳、肯德基以及苹果公司等旗舰专卖店的位置都是建立在数据分析基础之上的精准选址。百度、阿里、腾讯等通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。在智慧城市建设不断深入的情况下,大数据必将在智慧城市中发挥越来越重要的作用。由城市数字化到智慧城市,关键是要实现对数字信息的智慧处理,其核心是引入大数据处理技术,大数据将成为智慧城市的核心智慧引擎。智慧金融、智慧安防、智慧医疗、智慧教育、智慧交通、智慧城管等,无不是大数据和传统产业融合的重要领域。
4)数据将越来越开放
大数据是人类的共同资源、共同财富,数据开放共享是不可逆转的历史潮流。随着各国政府和企业对开放数据带来的社会效益和商业价值认识的不断提升,全球必将很快掀起一股数据开放的热潮。事实上,大数据的发展需要全世界、全人类的共同协作,变私有大数据为公共大数据,最终实现私有、企业自有、行业自有的全球性大数据整合,才不至于形成一个个毫无价值的“数据孤岛”。大数据越关联越有价值,越开放越有价值。尤其是公共事业和互联网企业的数据开放,将使数据越来越多。目前,欧美等发达国家和地区的政府都在政府和公共事业的数据上作出了表率。中国政府一方面带头力促数据公开共享;另一方面,还通过推动建设各类大数据服务交易平台,为数据使用者提供丰富的数据来源和数据的应用。
5)大数据安全将越来越受重视
大数据在经济社会中应用日益广泛的同时,其安全也必将受到更多的重视。大数据时代,在我们用数据挖掘和数据分析等大数据技术获取有价值信息的同时,“黑客”也可以利用这些大数据技术最大限度地收集更多的有用信息,对其感兴趣的目标发起更加“精准”的攻击。近年来,个人隐私、企业商业信息甚至国家机密泄露事件时有发生。对此,欧美等发达国家纷纷制定并完善了保护信息安全、防止隐私泄露等相关法律法规。可以预见,在不久的将来,其他国家也会迅速跟进,以更好地保障本国政府、企业乃至居民的数据安全。
6)大数据人才将备受欢迎
随着大数据的不断发展及其应用的日益广泛,包括大数据分析师、数据管理专家、大数据算法工程师、数据产品经理等在内的具有丰富经验的数据分析人员将成为全社会稀缺的资源和各机构争夺的人才。国际咨询公司Gartner资料显示,在2015年,研究表明,美国的数据科学人才非常充足,人才技能供求出现“顺差”,即就业者能够大大满足企业的需求。而截止到2018年的8月,领英的研究数据显示,数据科学领域出现了非常严重的人才短缺,美国数据科学家的人才缺口大约为151717人。美国通过国家科学基金会,鼓励研究型大学设立跨学科的学位项目,为培养下一代数据科学家和工程师做准备,并设立培训基金支持对大学生进行相关技术培训,召集各个学科的研究人员共同探讨大数据如何改变教育和学习等。英国、澳大利亚、法国等国家也对大数据人才的培养作出专项部署。IBM等企业也开始全面推进与高校在大数据领域的合作,力图培养企业发展需要的既懂业务知识又具备分析技能的复合型数据人才。
4.大数据在互联网金融中的应用
早在2006年,Thomas就比较研究了大数据在美国和欧洲各行业的发展状况。他认为,企业必须广泛推行以事实为基础的决策方法,大量使用数据分析来优化企业的各个运营环节,通过数据的优化和对接,把业务流程和决策过程当中的每一份潜在价值都挤出来,从而节约成本、战胜对手,在市场上幸存。他从咨询行业的角度,论证了大数据在为企业的发展提供事实依据上有无可比拟的优势。其实,大数据的意义不仅局限于数据的获取与储存,也包含数据挖掘和数据分析。大大小小的公司,其实都收集了大量数据,只不过在过去,这些数据储存在不同的系统当中,如财务系统、人力资源系统和客户管理系统,是信息孤岛。而现在,这些系统彼此相连,通过数据挖掘技术,可以获得一幅关于企业运营的完整图景,从而可以帮助企业提高运营效率和预测未来的能力。
互联网金融对于数据的数量、质量有着很高的要求,因此随着大数据的快速发展,大数据也逐渐应用于互联网金融当中,集中表现为风险管理、金融创新、促进资源优化、打破客户信息垄断4个方面。
1)风险管理
传统金融的风险管理注重的是企业资产规模、财务状况、资金流量和个人的身份地位、收入水平、资产规模等这些硬信息,资产抵押或质押通常也是缓释风险的主要机制。但互联网金融更加注重企业的实际交易行为轨迹。互联网平台所产生的云数据,客观地描述了相关交易主体的履约状况和信用水平,真实展现了他们的商业行为轨迹。大数据技术通过采集更全面、更及时、更真实的数据,快速地找出不同变量之间的相关关系,挖掘数据背后的风险信息,帮助互联网金融机构迅速、准确地识别和监控风险,改善风险决策模式,提高风险管理效率。例如,美国的一家网贷公司采用大数据技术,实时搜集网店店主的销售、顾客流量、商品评价、物流、店主在脸书(Facebook)及推特(Twitter)等社交平台上与客户互动的信息,通过各类信息的交叉验证分析,在数分钟内即可评估店主的信用风险水平,并计算出合适的贷款额度和利率,快速实现放贷。通过将互联网各个角度的信息转化为个体的信用信息,这家网贷公司实现了传统金融机构一般不愿涉足的小微网店贷款业务,这得益于大数据技术迅速采集和处理多渠道、多结构数据的能力。
2)金融创新
大数据的基本特征是数据的收集和信息的处理,而这也是互联网金融模式的核心,数据的收集能力和信息处理能力对金融业务的成本控制、风险控制有很大的影响,大数据的应用能有效地促进互联网金融的创新。大数据能对交易数据进行有效的分析,从而识别出市场交易模式,并帮助决策者制定高效的套利策略。大数据能对微博、Twitter等社交网络市场的信息进行分析,并对搜索引擎中的搜索热点进行重点关注,从而快速、高效地制定投资策略。同时大数据不仅能对中小型企业的日常交易行为数据进行分析,还能判断出财务管理制度不健全企业的经营状况及信用情况。
3)促进资源优化
在互联网金融中应用大数据,能有效地促进资源优化配置。互联网能促进投资和融资双方的信息发布、交流和匹配,不需要银行、证券和基金等部门的参与,例如,美国的Lending Club在为会员提供贷款业务时,是利用P2P网贷平台进行的,并没有利用银行机构;而Google的IPO是采用在线荷兰式的方法进行拍卖,并没有利用传统的投行路演、询价报价进行拍卖。近年来,我国涌现出大量的P2P平台,这些平台既有银行参与的融资项目,也有金融信息服务企业组建的网络贷款平台,这些平台为中小型企业的筹资指明了方向,也为投资人提供了低成本、高收入的投资渠道。可见,大数据能有效地整合互联网金融资源,为金融市场提供快速、高效的运营平台,对互联网金融的发展有十分重要的作用。
4)打破客户信息垄断
随着大数据时代的到来,金融市场变得更加透明。金融客户的信用状况会因其资产以及各类交易状况的差异而不同。为解决信息不对称的问题,传统的商业银行需要投入大量的人力、物力、财力进行信息搜集、分析、整理;而互联网金融平台则能利用自身的优势将交易双方信息收集起来,并建立新的信息来源途径;其他网络平台也会搜集大量的信息,如物流运输公司、网络支付企业等会搜集到大量的运输信息、价格信息、支付信息等,这些信息可以成为衡量客户个人信用的重要依据,这打破了传统的金融机构垄断客户信息的现象。社交网络具有很强大的信息传播功能,云计算具有很强的信息处理能力,搜索引擎具有很强大的信息检索能力,这些技术为创建成本低、更新快、精准度高的信息平台提供了有力的依据。