1.4 大数据与信息资源管理

1.4.1 大数据与智慧数据

当前,大数据作为重要的生产要素之一,已经渗透到各个行业和领域。从大数据主要发展节点来看,“大数据”一词于1980年出现在《第三次浪潮》一书中,该书将“大数据”称为“第三次浪潮的华彩的乐章”。2008年9月,《自然》杂志推出了名为“大数据”的封面专栏。2011年6月,麦肯锡发布了关于“大数据”的报告,正式定义了大数据的概念,后受到各界关注。2012年,美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》。由于大数据的快速发展,2013年也被广泛认为是中国的“大数据元年”。2015年10月,我国正式提出实施“国家大数据战略”,标志着大数据战略正式上升为国家战略,开启了大数据建设的新篇章。大数据时代的主要发展历程如图1-4所示。

图1-4 大数据时代的主要发展历程

大数据具有4V的典型特征,具体如下。

第一,数据量大(Volume)。超大规模是大数据的基本特征,大数据时代的数据计量单位从TB跃升到PB(1024TB)、EB(1024PB)或ZB(1024EB)。其中以非结构化数据增长最快,其数据量是传统数据仓库的10~50倍甚至更多。

第二,类型繁多(Variety)。海量的数据并非具有规整统一的结构,随着数据来源增多,数据也逐渐多样化,从类型来看包括网络日志、音频、视频、图片、地理位置信息等,从结构来看包括结构化、半结构化、非结构化数据,从形式来看包括图像、音像、视频等,异构、多样的数据缺乏明显模式、连贯的语义,对数据处理能力提出了更高的要求。

第三,价值密度低(Value)。从整体来看,类型繁多、超大规模的数据的确蕴含着规律和模式,但少量数据并不能揭示这样的规律,也就是说大数据价值密度相对较低,在海量数据中同时存在大量不相关的甚至是干扰的信息,如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据利用亟待解决的难题。

第四,速度快、时效高(Velocity)。我们知道信息是具有时效性的,过时的信息其价值会大打折扣,甚至毫无用处,因此,在大数据处理过程中,不仅不能因为数据规模、复杂结构延误处理时间,反而应该实时、快速地进行数据处理和分析,满足相关主体需求。持续、连贯地进行数据的输入、处理和分析,实时而非批量,这是大数据区别于传统数据挖掘最显著的特征之一。

大数据使得基于大数据的数据挖掘和知识发现成为可能,推动了研究范式和服务模式的发展,科学研究从问题驱动转为数据驱动(见图1-5)。另外,大数据的产生和发展正在对实际的管理活动产生影响,并进一步提高了管理与决策的准确性。

图1-5 从问题驱动到数据驱动:“大数据”发现与预测

基于大数据的资源观和管理的视角,可以认为大数据是一类能支持管理决策的重要资源。大数据资源管理的特征主要表现为复杂性、决策有用性、高速增长性、价值稀疏性、可重复开采性和功能多样性六个方面。

①复杂性。大数据是海量的数据集合,它的形式、特征十分复杂多样。这不仅表现在数据规模大、数据来源广和形态结构多,还表现在其状态变化和开发利用方式等的不确定性。

②决策有用性。大数据自身是客观的、低价值密度的数据资源,其直接功用和价值比较有限。它的价值主要通过对其背后隐藏的信息进行分析、挖掘来实现,进而在实践情境中提供利用价值、支持决策,这就是大数据的决策有用性。

③高速增长性。大数据资源与石油等自然资源不同,不可再生的自然资源会随着人类开采利用而逐渐减少,但对数据资源的开采,非但不会减少其资源总量,反倒会增加,这种增长的速度可以很快,有时是指数性的,有时甚至具有爆发性。

④价值稀疏性。大数据具有低价值密度的特征,大数据的开发、利用也具有价值稀疏性,这也增加了开发和利用大数据资源的难度,成为大数据价值挖掘的主要挑战之一。

⑤可重复开采性。自然资源的开发、利用过程通常是不可重复的,但大数据资源可以被重复开采。任何拥有数据使用权的人或组织都可以对其进行开采。在这个重复开发的过程中,数据资源的价值会随之大大提高。

⑥功能多样性。不同主体可以基于不同的开发目的,对大数据进行开发,基于不同的开发目的和方式,赋予了数据资源多样化的功能,如公共管理、商业分析等[19]

另外,“智慧数据”是近几年来的新提法,即通过对任何规模的可信的、情境化的、相关切题的、可认知的、可预测的和可消费的数据的使用来获得重大的见解和洞察力,揭示规律,给出结论和对策[20]。不同领域对智慧数据的理解会有所差异。在数字人文领域,智慧数据更加强调语义互联和专题数据库建设等内容,例如国际文化历史项目“文化历史的网络框架”,通过关联维基数据、艺术家辞典、艺术家联合人名规范文档等多个来源的数据,重现了跨越三千年的欧美文化迁徙模式。在智慧城市领域,智慧数据则倾向于强调数据的透明性、协同性、开放性、安全性等。实际上,智慧数据本身就是大数据的升级与延伸,其基本逻辑路径和目标是促使大数据更加智慧、智慧数据更大,以此实现数据与智慧的充分结合。