第一节 大数据基础知识

一、大数据的概念

大数据作为一种比较抽象的概念,大约起源于20世纪90年代,现已延伸到各行各业。针对大数据,目前存在多种定义。一部分学者认为大数据主要是指无法在一定时间范围内用常规软件工具进行收集、管理和处理的数据集合。维基百科对“大数据”的界定是:大数据也称为巨量数据、海量数据,指的是所涉及的数据量规模大到无法通过人工在合理时间内实现获取、管理、处理并整理成为人类所能解读的信息。大数据为我们提供了颠覆性的思维新方式、新方法、新手段,这也是大数据当前能够引发经济社会变革最根本的原因。数据显示,2021年全球实时数据量规模为16ZB,2025年实时数据将达到51ZB,同时根据互联网数据中心(Internet Data Center,IDC)预测,2018年到2025年,全球数据总量将由2018年的33ZB增加到2025年的175ZB。

微课堂

大数据基础知识

二、大数据的种类

数据既是对客观事物的逻辑归纳,也是事实或观察的结果。随着科技进步和经济发展,多数通过电子化记录的信息都被认为是数据,如社交软件产生的社交数据、购物平台催生的消费者及消费数据、物联网技术形成的车联网数据等。数据延伸范围越来越广泛,不但包括经济生产总值、证券市场、人口数量等数值型数据,而且还包括文本、照片、声音、视频等非数值型数据。通常,人们按照三种不同标准对数据进行分类,即按连续特征分类、按结构属性分类与按测量尺度分类。

(一)按连续特征分类

数据按照连续特征可以分为连续型数据与离散型数据。连续型数据与离散型数据主要用线、点来区分理解。

连续型数据是在一定区间内可以任意取值、数值是连续不断的、相邻两个数值可进行无限分割的数据。例如,人的体重就是连续型数据,某人的体重介于50kg与51kg之间,可以有50.1kg、50.2kg等无限个数值。

离散型数据又可称为不连续数据,这类数据在任意两个数据点之间的个数是有限的,只能用自然数或整数表达。例如,班级的数目就是离散型数据,某个年级有五个班级,二班和四班之间肯定只有三班这一个班级。

(二)按结构属性分类

数据按照结构属性可以划分为结构化数据、半结构化数据和非结构化数据,三者在存储形式、数据处理方法和数据分析方法等方面存在不同。

结构化数据一般被认为是可以用二维表结构来表示并存储在传统关系型数据库中的数据。从数据存储方面来看,Excel表格和SQL Server数据库等中的数据都属于结构化数据;从应用的方面来看,企业资源计划(Enterprise Resource Planning,ERP)系统数据、会计信息系统数据、银行交易记录数据等也属于结构化数据。结构化数据大多存储在大型数据库中,用户可以进行检索、分析和处理。

半结构化数据是指数据的结构和内容混在一起存储的数据,如操作系统的日志、智能终端设备获取的数据文件等。

通常,非结构化数据是指数据结构不完整、无预定义的数据模型、不能用二维表结构进行表现的数据。相对于结构化数据,非结构化数据没有统一的规则,常见的非结构化数据有互联网检索的网页信息、文档、电子表格、电子邮件、语音、图片、视频等。日常生活中存在大量的设备、系统能够产生非结构化数据,故其在数据中占比较大。而用户往往要对这些数据做大量的处理,将其转化成结构化数据,才可进行进一步挖掘和分析。

(三)按测量尺度分类

1.定类数据

定类数据也称为类别数据或名义数据,主要用于标识数据所描述的主体对象的类别或者名称。定类数据本质是一种分类体系,仅用于标识事物类别或名称,并不区分顺序,无法描述大小、高度、重量等属性,也不能进行任何运算。例如,人的性别只能分为男性和女性两类,量化后可分别赋值为0和1。这些数字只是一种代号,不能区分大小或进行数学运算。

2.定序数据

定序数据也称为等级数据或顺序数据,主要用于根据事物所具有的顺序属性对调查对象进行次序描述。使用数字或者序号表示的定序数据并不代表数据的大小,仅仅表示数据之间的顺序。例如,学位分为学士、硕士、博士,分别用1、2、3表示,这些数字只代表顺序,按照大小正序排列,并不能进行计算。

3.定距数据

定距数据也称为等距数据或区间数据,不仅能将变量(社会现象或事物)区分类别和等级,而且可以确定变量之间的数量差别和间隔距离,也就是说可进行加减运算,但不能进行乘除运算。例如温度,可以说30℃比15℃高15℃,不能说30℃就是15℃的2倍。

4.定比数据

定比数据也称为比例数据或等比数据,由定比尺度计量形成,可用于表示不同变量(社会现象或事物)之间的比例或比率关系,既可以进行加减运算,也可以进行乘除运算。例如身高,小明的身高是90cm,小李的身高是180cm,就可以说小李的身高是小明的身高的2倍。

三、大数据的特征

大数据基于传感技术、互联网及云计算等技术,收集结构杂、数量大、种类多的数据信息并加以处理,形成数据集合,借助数据交叉复用与集成共享,转变为智力资源。与传统数据特征相比,大数据具有以下特征。

(一)数据量大

大数据最为明显的特征就是数据量大,数据存储量已经从TB量级升至PB量级。在数字经济时代,图片、视频、语音等非结构化数据迅速增长,人们产生和获取的数据量愈发增大,对数据存储、处理、运算、传输等的要求也相应提高。巨大的数据量是大数据生成的重要基础条件之一,大数据中非结构化数据总规模一般是传统数据仓库的10倍到50倍。

(二)数据种类多

随着数字技术的快速发展,摄像头、传感器等智能终端设备可以从世界各个地方实时采集数据,并利用网络非常方便地将数据传输至大数据云端中心,以便于储存、管理、分析和挖掘。大数据平台、系统、App在生活中得到广泛应用,通过人与人、企业与企业、人与企业之间的沟通和业务经营产生大量的数据。因此,大数据种类具有来源多、类型多、关联性强等特征,具有丰富且完善的维度,具备多样性表现形态。

(三)价值密度低

当下,人们能够获取海量数据,但这些数据多数是重复度极高,甚至与分析关联不大的数据,其价值密度较低,还不能对未来发展态势进行精准预测,因此还需要利用各种大数据算法,提高数据采集和处理能力,针对不同场景和不同需求进行深入挖掘,挖掘数据隐藏的价值和规律,使大数据发挥作用。

(四)实时性要求高

通常,传统的商业分析处理需要一段时间才能完成,如企业一周统计一次经营管理数据和财务数据,并据此花费时间做一次分析报告。这些都属于事后揭示,能够发挥的作用是有限的,特别是对企业的经营管理人员来说作用不是太大。而大数据具有惊人的数据处理速度,能实时分析而非批量分析。其算法主要包括实时处理算法、批处理算法和近实时处理算法等。

(五)处理效率高

企业管理往往具有专业、系统的特点,需要短时间内处理大量数据信息,这些信息基本上涵盖了企业经营发展的各个方面。企业可以借助数字化系统推动交流与沟通,减少信息不对称,再通过大数据技术将模糊逻辑和推理结果相结合,从而满足计算机处理网络数据的要求,并通过搭建合适的模型来提高数据处理效率。

(六)学习能力强

大数据技术具备较强的学习能力,可以模拟人脑,能够在短时间内发现非线性问题并进行妥善处理,为人们做出决策提供合理参考。随着数字技术的不断更新升级和推广应用,人们可以将各类数据整合起来,充分发挥大数据自主学习的优势,更加高效地解决遇到的非线性问题。