2.1.4 数据库技术

数据库技术是指对数据进行采集、分类、存贮、检索、更新和维护的技术,是信息管理技术中的重要组成部分。一般来说,数据库技术具有较强的灵活性、分享性、可控性和独立性。从历史沿革来看,数据管理方法经历了人工管理、文件系统和数据库系统三个阶段,其中文件系统可以看作数据库技术的前身,文件系统中的数据通过磁盘、磁鼓存储,也有了专门的数据管理软件,不仅可以通过文件名访问、修改和删除数据,还可以进行科学计算,被大量应用到管理领域。但当时的数据库是无结构的,共享性差,无法反映数据之间的内在联系。20世纪60年代,计算机在硬件、软件方面都获得了较大的进步,被广泛应用到数据管理中,数据库管理系统应运而生。

20世纪70年代出现了第一代数据库系统——层次和网状数据库系统,其中最具代表性的是1969年IBM公司研制的IMS和美国数据库系统语言协会(Conference Data System Language,CODASYL)的DBTG报告。在层次数据库中,现实生活中的实体以及实体之间的关系通过树形结构来描述,只有一个根节点;但在网状数据库中,则存在多个根节点。层次数据库是数据库系统的先驱,网状数据库则是数据库概念、方法与技术的奠基者。

第二代数据库系统是关系数据库系统,其中实体类型以及实体之间的关系通过二维表来描述。IBM公司在1970年提出了这一概念,其开发的System R与伯克利大学的Ingres以及商业领域的DB2、Oracle都是关系型数据库的典型代表。成熟的关系型数据库集成了传统应用与非传统应用,能够灵活支持多种数据类型,因此用户群很大,当前仍然有很多大型系统采用关系型结构。

第三代是以面向对象模型为主要特征的数据库系统,要求数据库灵活处理各种类型的数据,而不是让数据去适应事先定义好的数据结构。第三代数据库延续了第二代数据库的优点,保持和集成了第二代数据库系统的技术,并且对其他系统开放。此外,第三代数据库还发展出了自己的特点,包括支持数据管理、对象管理与知识管理等。

早期的数据库技术以单一的数据源为中心,主要用于支持数据搜集和数据访问,对数据分析、辅助决策提供的支持较少,无法应对多变的市场环境。于是20世纪90年代,数据仓库、We b数据库等分析型数据库开始出现。数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,支持在各层次追溯动态的历史信息,辅助管理层的决策过程。一个数据仓库系统包括源数据、仓库管理、数据分析工具和数据仓库等几个部分。源数据是数据仓库中内外部数据的来源;仓库管理负责进行源数据的抽取、净化、转换和装载,之后存储到数据仓库中;数据分析工具帮助用户对数据进行分析、获取信息,由于数据仓库是面向分析的,因此数据分析工具是数据仓库系统的重要组成部分,也是信息挖掘的基础。数据仓库不是取代数据库的概念,相反数据仓库来源于数据库,也可以被认为是一个特殊的数据库。

WWW(World Wide Web,Web)系统是一个大型的分布式超媒体信息数据库,它极大推动了互联网的发展。We b数据库就是将数据库技术与We b技术相融合,使数据库系统成为We b的重要组成部分,用户可以在We b界面上检索、存储、修改数据库内容。与传统数据库不同的是,We b数据库不仅可以管理数字、符号信息等结构化、半结构化数据,还可以处理全文、图像、多媒体等非结构化数据,有着传统数据库难以比拟的优势。

进入21世纪,以高级算法、多处理系统和海量算法为支持的数据挖掘概念被提出,它是指采用数理统计、人工智能和神经网络等方法,从大量的、不完全的、噪声的、模糊的、随机的实际数据中,提取隐含的、预先不为人知但有用的信息与知识的过程。数据库技术是数据挖掘的基础,提供了数据存储、组织等功能。根据挖掘目标的不同,可以将数据分为描述型数据挖掘和预测型数据挖掘。描述型数据挖掘是指根据数据的相似性把数据分组,或对数据中存在的规则进行描述,包括聚类分析(Cluster Analysis)、关联分析(Association Analysis)、异常检测(Anomaly Detection)等。预测型数据挖掘则需要根据已知的属性去预测未知属性的值,包括分类(Classification)、回归(Regression)等。

随着经济的发展与技术的进步,未来的数据库管理系统将更加强大,融合云计算和“互联网+”等新概念,更好地满足社会生活的需求。