1.2 信息的定义和特征

数据处理的目的是为了获得信息,信息是一切物质的普遍属性。研究数据,就必须研究信息。

1.2.1 信息的定义

“信息”的英文是information,其源自拉丁语in-formare,拉丁语的原意是“预见”或“心中已有的表征”。与信息相关的英文还有message。Message是古法语,源自拉丁文mittere,拉丁语的原意是传递,中文译为“消息”或“信息”。《牛津大词典》记载,“information”一词在中世纪被释义为传播的行为,近代以来才被释义为传播的内容。

中文“信息”一词拆解开来,很有意味。“信”是人(左)言(右),指音信;“息”是自(上)心(下),指呼吸。我国早期的文字中并没有“信息”一词,类似的词有“兆”“音”“信”和“讯”等。汉字“兆”是按照商代占卜时甲骨上的裂纹象形创造的,其本意是指甲骨烫灼后产生的裂纹,引申为“征兆”“预示”之意。汉字“音”源于“言”,是指“有节奏的声”,也指消息。《诗经》中有“纵我不往,子宁不嗣音”的诗句,说的是音信。讯是指“问”,问来的消息就是音讯或信息。在我国香港和台湾地区,信息就被称为“资讯”。“信”表示人之言,就是传来的话,朋友之间依靠书信或口信传递消息。后来,音信和消息在诗句或文章中组合就产生了“信息”一词,表示音信。唐朝诗人杜牧写的题为《寄远》的诗中就有“塞外音书无信息,道傍车马起尘埃”这样的用法。

作为科学术语,信息的定义可以追溯到“熵”的定义。因为两者的本质相关联,所以科学家常用“熵”对信息进行定义。1865年,德国数学家克劳修斯(R.J.E.Clausius)首先提出了“熵”(entrophy)的概念。他认为热量从高温物体流向低温物体是不可逆的,“熵是描述热力学不可逆过程的量”,其物理表达式如下。

克劳修斯说“entrophy”源于希腊语“变化”,他证明熵这个量在可逆过程不会变化,在不可逆过程会增加。这就是著名的熵增加原理:“任何孤立系统中,系统的熵的总和永远不会减少”,或者说,自然界的自发过程总是朝着熵增加的方向发展的[6]。这是利用熵的概念表述的热力学第二定律。

随着统计学理论的出现,科学家们开始使用统计学理论对热力学进行解释和概括。1877年,奥地利物理学家玻尔兹曼(L.E.Boltzmann)从统计物理学角度研究热力学不可逆过程及熵的微观意义,他认为系统中微观粒子的运动可以解释系统的宏观现象。他给熵做的定义是“熵是系统内分子热运动无序性的一种量度”,并提出用“S∝lnW”的关系式表示系统无序性的大小[7]。1900年,德国物理学家普朗克(M.K.E.L.Planck)引进了比例系数k,将上式表示如下。

S=klnW

其中,S是系统的熵,k为玻尔兹曼常量,W是任一宏观状态下的微观状态数。该公式表明,W越大,在该宏观状态下可能所处的微观状态数越多,系统就越混乱无序,熵值也就越大。这个公式后来被刻在了玻尔兹曼的墓碑上,被称为“玻尔兹曼公式”。

1878年,美国著名物理化学家吉布斯(J.W.Gibbs)认为,如果考虑系统中存在多个微观状态i,每个微观状态i对应的能量值是Ei,pi是微观状态i在系统中出现的概率,kB是玻尔兹曼常数,他将熵的公式改写如下[8]

吉布斯将熵的定义进一步拓展到了能量不唯一确定的系统,使熵成为非平衡态统计研究中最基本的物理概念。吉布斯也第一次提出“熵是一个关于物理系统信息不足的量度”。由此,他将统计学更广泛地拓展到了物理学,使物理学不得不考虑事件的不确定性和偶然性。吉布斯的贡献,使人类对信息的科学认识有了重大进步[9]

1871年,英国物理学家麦克斯韦(J.C.Maxwell)提出了似乎违反热力学第二定律的麦克斯韦妖悖论(Maxwell Demon Paradox)。麦克斯韦妖是在物理学中假想的妖,它在一个容器中能探测并控制单个分子的运动,并通过打开和关闭一个无摩擦的活门,让一个容器内运动快(热)的分子和运动慢(冷)的分子分别占据不同的区域,从而使容器中不同区域的温度不同。麦克斯韦妖的引进,可以把高温和低温分子集合当成两个热源,而且在它们之间放置一个热机,让热机利用温差对外做功。这似乎是一台免费做功的永动机,但这个结论似乎与热力学第二定律相违背。麦克斯韦妖悖论一直困扰着物理学界,直到科学家将信息的概念引入热力学过程[10],麦克斯韦妖悖论才获得了部分解释。1929年,匈牙利物理学家希拉德(L.Szilard)引入了一个单分子热机模型,将信息的概念引入热力学循环中,他直观地认为麦克斯韦妖在测量分子处于左边还是右边的过程(即获取信息的过程)中会消耗能量,从而导致整体的熵的增加[11]。但当时这一直观判断还缺乏科学的理论证明,麦克斯韦妖悖论仍未被完全解决。

1928年,美国科学家哈特莱(R.V.Hartley)在研究信息传输时提出了信息量的公式[12]

I=logm

其中,I是信息量,m是信源以相等可能产生的消息的数量。

1948年,美国数学家、信息论的奠基人香农提出了信息熵的概念,并用熵首次给出了信息的明确定义。他认为,“信息是用来消除随机不确定性的东西”。香农信息熵的公式为:

其中,S是信息熵,是对信息的量度;i是多种可能性中的某种可能性;pi是发生某种可能性i的概率[13]

香农指出,与信息相关的因素主要有两个:一是消除随机不确定性的事件;二是该事件结果的多种可能性的消除。香农信息熵的公式表明,如果某个事件减少了整体可能性,那么与事件结果相关的信息(量)就与可能性数量及它们各自的概率具有了信息熵公式中表明的函数关系。例如,在8个人中选出1个人当组长,每个人都有可能当选,有8种可能性,但谁最终能当选,在选举结果出来之前是不确定的。因此,选举结果被公布的事件(发布信息的事件)就是一个消除不确定性的事件。在8个人中,张三被选中当组长的结果就是该事件结果的一种可能性;如果张三被选中当组长,意味其他7种可能性被消除。所以,选举结果被公布的事件中的信息(量)就是消除8种可能性的熵的量度。

香农认为,我们观察现象可以获得相关的信息。观察现象的过程,其实是寻找问题答案的过程。所以,信息也被称为资讯。问题的答案总是可以还原到“是”和“否”,完全可以用二进制中的1和0表示。二进制中的一个符号(0或1),代表着问题的二选一答案,香农把它定义为比特(bit),并指出比特就是信息的单位。当我们回答有两种可能性的问题时,例如,“远处亮的那盏灯是红灯还是绿灯?”红或绿二选一,只需要1比特信息量;当我们回答有四种可能性的问题时,例如,“远处两盏灯发出了什么信号?”两盏红、绿灯有四种组合(红红、红绿、绿红、绿绿),就需要2比特信息量;当我们回答有八种可能性的问题时,例如,“远处三盏灯发出了什么信号?”三盏红、绿灯有八种组合(红红红、红红绿、红绿红、红绿绿、绿红红、绿红绿、绿绿红、绿绿绿),需要3比特信息量;以此类推,有N种可能性的问题用“是”和“否”

回答,最多能够用log2 N比特的信息就可以度量[14]。也就是说,如果所有可能事件发生的概率都相同,那么N个事件中某一个事件所发生的信息量lg(以比特计算)就是以2为底、N的对数log2 N,即lg=log2 N。例如,“16种可能性中选出1种”与“8种可能性中选出1种”产生的信息相比,信息量不同,一个是4比特,一个是3比特,因为前者减少了更多不确定性,所以产生了更多信息。

香农证明,任何信息都可以被看作对任何有限问题的任何回答,也都可以编码为比特串。比特数据是传播信息的通用媒介。通过“描述观察所需的最小比特值”,就能测量此信息量。而且,香农认为,对有序程度的测量与对无序程度的测量是等同的。在高度无序的环境中进行测量会产生大量信息;相反,在高度有序的环境中进行测量所产生的信息则较少。香农对信息论的发展做出了巨大贡献,被尊称为“信息论之父”。香农信息论是现代信息与通信技术发展的基础理论。

1948年,美国数学家、控制论创始人维纳(N.Wiener)提出,“信息是人们在适应外部世界,并使这种适应反作用于外部世界的过程中,同外部世界进行互相交换的内容和名称”[15]。维纳认为,一个有效的行为必须通过某种反馈过程取得信息,从而了解其目的是否已经达到。他认为信息就是信息,不是物质,也不是能量,是一种非物质性的客观存在。维纳第一次提出了物质、能量、信息是构成世界的三大要素,他认为,“世界由物质组成,能量是一切物质运动的动力,信息是人类了解自然及人类社会的凭据”[16]。哈佛大学教授欧廷格(A.G.Oettinger)对这三大基本要素做了精辟的诠释:“没有物质,什么都不存在;没有能量,什么都不会发生;没有信息,什么都没有意义。”

香农信息论解决了信息的度量,但没有阐明信息的语义内容。而语义信息学则是研究信息内容的学科,语义信息学家认为,“信息是告知性回答中传递出的内容”。语义信息学认为,语义信息可以用“数据空间”来定义,可以根据形式适宜、有意义且真实的数据获得令人满意的语义信息[17]。美国哲学家卡尔纳普(R.Carnap)和以色列数学家巴尔·希勒尔(Y.Bar-Hiller)是语义信息学的重要奠基人,1952年他们给出了信息概念的抽象形式。因为任何信息都可以用1和0的比特串进行编码,所以语义信息论认为,已知指数集I,那么包含于集合I的任意集合A都可被视为比特的指数集:若i∈A,则为1;若i∈A,则为0,将I中的元素i视为抽象化的状态——描述,并且将指数函数作为特征函数[18]。这些比特通过编码、程序及编译器等的处理就形成了信息。在特定的以逻辑为基础的环境中,使主体可以通过观察、提问、语言交际或推理演绎等方法,通过数据获取关于真实世界的新信息。

20世纪60年代初,苏联计算机专家索罗门诺夫(R.Solomonoff)、数学家柯尔莫哥洛夫(A.Kolmogorov)等人分别独立制定了一种测量字符串复杂度的方法,他们的理论被称为“算法信息论”(或柯尔莫哥洛夫复杂度理论)。柯尔莫哥洛夫认为,一个数字序列的算法信息即产生此序列的最短算法的长度[19]。例如,一个由1万个数字1组成的长序列111……所含信息并不多,因为大小约为log10000比特的程序就能输出此序列,程序如下:For i=1 to 10000;print 1。与此类似,π=3.1415……看起来是一个无限随机小数序列,但该序列仅包含几比特信息,通过一段程序就可以无限地产生π的连续数字。一般来说,规则字符串的柯尔莫哥洛夫复杂性较低,而随机字符串的柯尔莫哥洛夫复杂性几乎相等于其自身长度。算法信息论的科学家们认为,最短算法是控制人类信息流的普遍原则,即所谓“大道至简”。

计算机科学家认为,信息是计算机存储和处理的有意义的对象。冯·诺伊曼和他的同事提出了“存储程序”概念,即程序或数据在内存中都是以二进制形式存储的数据。因此,从某种意义上说,计算即信息。在计算机科学中,数据和信息两个词也经常替换使用,但严格地说,数据和信息有很大区别。数据是原始素材,是信息的载体;信息是对数据的解释和还原的意义。所以,在计算机科学中,采集、传输、计算数据而生成信息的技术被称为“信息技术”,采集、传输、计算而生成信息的系统被称为“信息系统”,对事实进行数据记录并还原信息被称为“信息化”,从事信息技术研发、制造和应用的业态被称为“信息产业”。

回到麦克斯韦妖悖论,1961年美国物理学家兰道尔(R.Landauer)的研究让麦克斯韦妖悖论有了革命性的突破。当时在IBM 华生研究所工作的兰道尔在研究“计算的热力学”时提出了一个著名的把信息理论和物理学的基本问题联系起来的定理:擦除1比特的信息将会导致kTln2(k为玻尔兹曼常数,T为环境温度)的热量的耗散,这个定理被称为“兰道尔原理”[20],即每比特信息具有kTln2焦耳的能量。兰道尔原理指出了计算机如何用能量进行信息处理。计算机中擦除的动作会产生热,这个动作是计算机内存中消耗能量的行为,并增加了宇宙的熵,因此信息处理也是一个热力学过程。在此基础上,1973年,IBM 华生研究所的美国物理学家贝内特(C.H.Bennett)证明,通常的计算过程可以几乎不需要消耗能量即可完成,从而揭示了可逆计算过程的普适性[21]。1982年,贝内特又给出了麦克斯韦妖悖论的标准解答,从原理上解决了这个困扰物理学家100多年的悖论。2003年,贝内特在他的一篇文章中将兰道尔原理进一步阐述为“任何逻辑上不可逆的信息操纵过程,例如,擦除1比特的信息或合并两条计算路径,一定伴随着外部环境或信息存储载体以外的自由度的熵增”[22]

信息不仅仅存在于硅基(以硅材料为基础制造)的计算机系统中。生物信息论认为,碳基的生物体也是一个信息系统,生物体通过存贮、修改、解读遗传信息和执行遗传指令形成特定的生命活动,促使生物成长发育和不断进化[23]。人类细胞中的信息是代代相传的,人作为一个物种的历史,都写在我们的遗传密码中[24]。人自身就是一个信息系统,神经系统构成了数据采集和传输系统,大脑就是人类信息获取器和信息处理器。

量子世界颠覆了人们对信息的传统认识。量子力学中的很多现象和规律,如量子的叠加态、纠缠态、测不准原理、叠加态坍缩、退相干等,都和信息紧密相关。量子叠加是指一个量子系统可以同时处在两个相互排斥的量子状态的叠加态上,同时既是0,也是1,薛定谔的猫思想实验形象地将此表述为“一只猫可以同时既是活的又是死的”。量子纠缠是指量子粒子之间的连接或耦合,两个粒子发生纠缠时,当一个粒子发生变化,即使两个粒子处在超远的距离,也会瞬间在另一个粒子中反映出来,即所谓“心心相惜”。海森堡的测不准原理(Uncertainty Principle)是指不可能同时知道一个粒子的位置和它的速度,获取一对互补可观测量的一个量的信息,就会失去另一个量的信息。叠加态坍缩是指粒子被观测后,就由原来的叠加态变成了之后的某个本征态,发生了坍缩,即测量的行为使叠加态坍缩。量子退相干是指开放量子系统的量子相干性会因为与外在环境发生量子纠缠而随着时间逐渐丧失的效应,即所谓“见异思迁”。

因此,在量子世界,量子信息论取代了经典信息论。量子信息论是量子力学与信息科学的结合,它指出量子信息是关于量子系统“状态”所带有的物理信息[25]。一般情况下,量子信息处理都要借助纠缠态来实现。在量子信息系统中,常用量子比特(qubit)表示信息单元,量子比特由两个不同的量子状态∣0〉和∣1〉(如电子自旋的上和下)实现。量子比特可处于量子状态的线性叠加态上,如α∣0〉+β∣1〉,(α22=1)。由于可处于叠加态,一个量子比特可携带的信息量远大于一个经典的比特携带的信息量。利用量子特性,科学家发明了量子计算机。量子计算机是处理量子信息的机器,利用量子系统实现信息的产生、传输、存储、计算等任务,它的计算速度要远远超过现在的计算机。

综上所述,在科学家看来,信息是和物质、能量一样的物理实在,是宇宙中一切物质的普遍特性。数据只是信息的外在表征,是信息的载体。借助数据的载体,物理世界被记录和描述,并通过对数据的计算和分析还原信息的意义。

信息不仅是自然科学研究的对象,也是社会科学研究的对象。人类社会是一个复杂系统,人的社会活动依赖信息的传递和交换。此时,信息被抽象为社会活动中各种事物的运动状态和变化的反映。钟义信教授就认为,“信息是事物存在方式或运动状态,以及这种方式或状态直接或间接的表述”[26]

在新闻传播学中,美国学者德夫林(K.Devlin)和杜斯卡(R.Duska)对信息概念历史进行了研究,把信息描述为一种抽象概念,即随着现代媒体出现而自然产生的副产品。当人类的交流由个体间直接对话转变成以技术(望远镜、显微镜、书籍、报纸、电话、电视、互联网等)为中介的相互作用时,就需要创造出抽象的涵盖性术语来表示这些由发送者传输给接收者消息时所传递的“内容”。德夫林说,“信息就像交流过程中来回接打的网球”,即信息是人们讲话或观察过程中来回使用的抽象传递方式[27]

在信息管理学中,美国信息管理专家霍顿(F.W.Horton)等人给信息下了定义,“信息是一种可管理的资源,是为了满足用户管理决策的需要而经过加工处理的数据”[28]。简单地说,信息是经过加工处理的数据资源。信息管理学家普遍认为,“信息是提供给管理决策的有效的数据资源”。

信息经济学主要研究信息的经济属性及其在经济发展中的作用。美国经济学家阿罗(K.J.Arrow)认为,信息是根据条件概率原则有效地改变概率的任何观察结果[29],这个定义奠定了以统计学为基础的信息经济学的雏形。我国信息经济学家陈禹认为,信息是一种市场参加者的市场知识与经济环境中的事件状态(主客观不确定性)之间概率性建构的知识差[30]。信息经济学家斯蒂格利茨(J.E.Stiglitz)认为,信息并不完全,获取信息需要支付成本,存在信息非对称,并且信息非对称的程度受企业和个人的行为影响[31]

哲学家们提出了哲学的信息转向,对信息的本体论、认识论和方法论等进行了研究。例如,英国哲学家佛罗利迪和我国学者邬焜、刘钢等都对此做了深入的研究。邬焜提出,信息哲学把信息定义为“信息是标志间接存在的哲学范畴,它是物质(直接存在)的存在方式和状态的自身显示[32]。邬焜认为,信息是由物质在相互作用中派生出来的,信息世界又是对物质世界的显示,所以物质世界仍然是第一性的本原性存在,而信息世界则是第二性的派生性存在[33]

总之,信息是客观实在,是物理世界的普遍属性,是对“物理世界无序性和不确定性减少”的量度,信息揭示了无序中的有序,不确定性中的确定。因此,信息是意义之所在,没有信息,什么都没意义。数据则是对事实的描述和记录,是信息的载体。经过数据处理活动,数据将被还原出有意义的信息。1980年,托夫勒在其《第三次浪潮》一书中提出,多样化的文明带来了大量的信息,我们也因而迈入“信息社会”。

1.2.2 信息的特征

信息具有以下特征。

(1)客观实在性

信息是一种客观实在,是宇宙中一切物质的普遍属性。信息是客观存在的、真实的,不随人的主观意志而改变。自然界和人类社会一直在测量信息、传送信息、处理信息和展现信息。

(2)普遍性

只要有物质存在的地方,就必然有信息存在。信息在自然界和人类社会活动中普遍存在。

(3)意义性

信息具有意义,宇宙是通过信息来“对话”的,信息是物质与能量的运动状态与方式,一切物质和能量服从信息定律[34]

(4)动态性

物质和能量处于不断变化中,信息也随之不断变化,其信息量、信息内容和表现形式等都会随时间而不断变化。

(5)可识别性

信息能够被测量和定量。借助数据,人类可以通过感觉器官、科学仪器、技术等方式获取、传输、整理和认知信息,这是人类利用信息的前提。但由于外在环境的复杂性和不确定性,人们掌握的信息并不完全。

(6)可传递性

信息可以通过各种媒介在物与物、人与物和人与人等之间传递,可以从一种物质转移到另一种物质,从一种形式转化为另一种形式。