1.1 数据的定义和特征

1.1.1 数据的定义

“数据”一词由两个字构成,即“数”和“据”,“数”是计数,“据”是凭据。从这个角度看,数据是抽象和具体的结合体,既是对万事万物各种计数或描述所获得的抽象的“数”,也是记录这些数所形成的具体的(凭)“据”。因此,我们给数据下的定义是“数据是对事实的记录和描述”。从“数”的角度看,数据是对客观事物的性质、状态及相互关系等进行测量、记录和描述的结果;从“据”的角度看,数据是记录或承载于石头、贝壳、竹简、纸张、电磁波、电子计算机等各种物理实体上的物理符号。

“数据”的英文是data,其源于拉丁文datum,拉丁语的原意是“被给予的意义”(meaning that which is given)[1]。这个词根的原意提醒我们,数据是某种抽象,它蕴含着“被给予的意义”。17世纪,一些哲学家认为“数据是作为推理和计算基础的已知或假定为事实的实物”。他们认为,一份数据是对一个事实最直接、最如实的表达,这样才能进行正确的推理和计算。但是数据不等于事实,它只是人类为定义一个事实所用的最小观察单位。英国哲学家佛罗利迪(L.Floridi)被认为是当代信息哲学的开创者之一,他给数据下了一个定义:“数据是在某一情境下有关差异或统一性缺乏的推定事实。”他认为,这一现实架构中的“差异”在特定条件下使信息成为可能,但要具备三个先决条件:一是要求一份或更多份数据;二是这些数据必须是可取的,即它们必须是根据特定规则组合起来的;三是这些数据是有意义内涵的,即可以通过不同的方式阐释、翻译或表达[2]。因此,从哲学意义上看,数据与事实直接相关,第4章将对此进行专门论述。

从数据的发展历史看,在计算机产生后,计算机成了数据的主要载体,数字化数据也成了数据的主要形态。在计算机科学中,数据是对所有输入计算机并被计算机程序处理的符号的总称[3],包括电子化的字母、数字、文字、图形、图像、视频、声音、音乐等。

很多计算机界的协会和标准化组织都试图给出“数据”的定义。国际数据管理协会(DAMA)认为,“数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现”[4],其指出了数据的不同形态,也认为这些形态的数据可以表现事实。

国际标准化组织(ISO)认为,“数据是对事实、概念或指令的一种形式化表示,适于人工或自动方式进行通信、解释或处理”,其认为数据是人为创造的符号形式,是对它代表的对象的解释,同时又需要被解释;数据对事物的表示和解释方式必须是权威、标准、通用的,只有这样才可以达到通信、解释和处理的目的。

总之,回到我们对数据的定义,数据就是对事实的记录和描述。

1.1.2 数据的特征

数据具有以下特征。

(1)事实依赖性

数据既可以是对事物对象特征的表示,也可以是对事物对象间的事件关系的表征。但数据不等于事实,数据力求准确、完整、及时地描述和记录事实,但只是对事实的描述和记录。

(2)物理符号性

数据是一种物理符号或物理符号的组合,要依赖某种物理载体进行记录、传输或存储。这些记录、传输或存储数据技术的使用,通常是为了从数据中获得信息与知识。

(3)可计算性或可解释性

数据是用数据采集工具获得的对事实描述和记录的“原材料”,数据本身并没有任何显性的意义,但它蕴含意义,可以作为解释、推理和计算的基础,通过对数据的分析和挖掘,能够发现有意义的信息和知识。

(4)历史性

数据是对已经发生或正在发生的事实的记录和描述,我们拥有已经真实存在的事实的数据。尽管通过已有的数据可以对未来进行某种推理、计算和预测,但因为数据具有时间属性,我们掌握的只是历史数据,未来数据只是推测数据。研究表明,数据的价值会随着时间的流逝而有所降低[5]

(5)数字性

数据的符号,不管是数字、文字、图像还是声音等,无论是模拟数据还是数字数据,都可以用二进制的数字符号统一表示。在现有计算机系统中,所有数据也都是以二进制的形式存储的。因此,任何数据都可以表示为0或1两种状态的某种组合。数字化数据是当前数据的主要存在形式。

(6)易复制性

数据可以在不同的数据载体间进行传递或复制、再复制,而且副本数据保真度保持不变。因此,数据可以被低成本地使用和再次使用。数据的复制不需要对事实进行重新记录。

(7)可删除性

数据可以被删除,某份数据被删除后就会消失,不复存在。