1.2 相关性与因果关系

为什么人们会感觉出现了辛普森悖论现象呢?这其实是人们在思维中常常错误地将相关性等同于因果关系来使用所导致的。

以例1.2新药效果的评估问题为例,确实存在“对男性或女性患者,服用新药比未服用新药具有更高的康复率”,而“对不区分性别的所有患者,服用新药比未服用新药具有更低的康复率”这样的悖论吗?

我们引入变量对表1.4提供的统计数据信息进行数学化表达。P(康复=1)表示患者康复的概率,“性别=男性”表示患者性别为男性,“性别=女性”表示患者性别为女性,“服用新药=1”表示患者服用新药,“服用新药=0”表示患者未服用新药。根据表1.4的统计数据,相应地有下述数学表达式。

根据第一行男性患者的数据,可有

根据第二行女性患者的数据,可有

根据第三行不区分性别的所有患者的数据,可有

在这个例子中,准确地说,式(1.3)提供的信息只是相关性,说明对于不区分性别的所有患者,我们观察到“服用新药”患者(“服用新药=1”)的康复概率要低于“未服用新药”患者(“服用新药=0”)的康复概率。但这并不意味着,如果我们主动采取措施,“让患者服用新药”后,其康复概率就会低于“不让患者服用新药”的康复概率,因为式(1.3)并没有提供因果关系信息——“服用新药”就会导致康复概率降低。

同样,式(1.1)也仅仅说明,对于男性患者,我们观察到“服用新药”患者(“服用新药=1”)的康复概率要高于“未服用新药”患者(“服用新药=0”)的康复概率。式(1.1)提供的信息只是“服用新药=1”和“康复=1”之间的相关性,并不能说明对于男性患者,如果我们主动地采取措施,“让患者服用新药”后,其康复概率就会高于“不让患者服用新药”的康复概率。式(1.1)也没有提供这样的因果关系信息。

显然,如果式(1.1)和式(1.3)提供的是因果关系信息,那么确实出现了悖论,但式(1.1)和式(1.3)提供的仅仅是观察性的相关性信息,而这样的相关性信息是完全可能出现的。我们从纯数学的角度来分析,上面这个悖论可以写成如下的数学形式。

却有

其实这很正常,由于占比不同的影响,这样的结果完全可能出现。因此,表1.4的数据事实上并不构成悖论。而之所以我们感觉出现了悖论,是因为我们在思维中常常错误地将统计信息中的相关性关系视为(可能自己还没有察觉到)因果关系。在这样的案例中,分组数据与总体数据截然相反的相关性结论说明:变量之间的相关关系可以完全被第三个变量所“扭曲”,避免“扭曲”的关键在于选择正确的分组变量对数据进行分组统计、分析。我们来看几个更加直观的相关性不等于因果关系的例子。

与冬天相比,夏天游泳的人增多且溺亡人数上升,同时吃冰激凌的人数也增多,因此,我们可以观察到统计数据——在“吃冰激凌的人数多”时“溺亡人数多”。我们可以得出结论——“吃冰激凌的人数多”和“溺亡人数多”这两者之间有相关性,而如果我们得出“吃冰激凌的人数多”将会导致“溺亡人数多”这样的因果关系,这个结论显然是荒唐的。类似地,我们可以观察火灾事故中的伤亡人数和火灾救援中出动的消防车数量之间的统计关系,在所有的火灾统计数据中,可以发现,出动“消防车数量多”的火灾“伤亡人数多”,我们可以得出结论——火灾中“消防车数量多”和“伤亡人数多”之间有相关性,但我们不会得出“消防车数量多”导致了火灾中“伤亡人数多”的结论。

这些例子比较直观,我们通常不会将相关性与因果关系混淆,但类似例1.2中服用新药和康复率之间的关系,由于涉及较为专业的知识,相互关系较为复杂,因此人们常常无意识地将相关性与因果关系混淆,从而导致感觉到悖论的出现。

既然相关性不等同于因果关系,那么到底什么是因果关系呢?人类对于因果关系的研究可以追溯到古希腊时期的亚里士多德,他讨论了事物运动的原因,提出了“四因说”。但古希腊人所谓的“原因”观念不同于近代以来的“因果性”观念,他们所谓的“原因”与“为什么”相对应,并不与“结果”相对应。

一般认为,近代以来人们在哲学上关于因果关系的思考主要始于休谟。休谟认为,知识是通过感官获得的印象而来的,印象产生观念,观念之间通过联系而成为复合观念。产生观念之间联系的性质共有三种:类似、时空接近和因果关系。也就是说,观念之间经常因为类似、时空接近和因果关系而联系起来,在这里,因果关系就是联系观念的桥梁。并且,“能够引导我们超出记忆和感官的直接印象以外的对象间的唯一联系或关系,就是因果关系,因为这是可以作为我们从一个对象推到另一个对象的正确推断的基础的唯一关系”,只有因果关系“才产生了那样一种联系,使我们由于一个对象的存在或活动而相信,在这以后或以前有任何其他的存在或活动”。也就是说,一个对象的存在或活动若是原因,在这之后就会有其他的存在或活动,若是结果,在这之前就有其他的存在或活动。因为一个对象的存在或活动而推导出其他的存在或活动的过程即可被视为推理(也称为“推断”)。在休谟的知识体系中,他提出“一切推理是比较和发现两个或较多的对象之间的那些恒常或不恒常的关系”,而这种比较是感官所不能完成的。因果关系在知识表现上,就是一个对象的存在或活动与另一个对象的存在或活动之间的联系,而在思维过程中表现的就是推理。在因果关系的概念上,休谟通过对原因和结果两个对象的反复观察,发现了因果关系的两个特征:接近关系和接续关系。接近关系就是原因和结果在其发生的时间和地点两方面都互相接近。当原因和结果看起来互相远隔的时候,它们实际上也是被一连串互相接近的因果链条联系起来的。接续关系就是在时间上,原因总是发生在结果之前。同时,休谟发现,“接近和接续并不足以使我们断言任何两个对象是因和果,除非我们觉察到,在若干例子中这两种关系都是保持着的”“需要补充的这个关系就是它们的恒常结合”。对于因果关系的应用,休谟认为,“因果关系虽然是涵摄着接近、接续和恒常结合的一种哲学的关系,可是只有当它是一个自然的关系而在我们观念之间产生了一种结合的时候,我们才能对它进行推理,或是根据它推得任何结论”。在休谟关于因果关系的概念中,原因和结果两个存在或活动长期经常、相互接近、先后发生,但他并没有强调原因的发生会引起结果的发生,显然对相关性和因果关系的区分强调不够。

在对近代以来西方哲学批判继承的基础上,马克思主义哲学提出了现代意义的因果关系。马克思主义哲学认为,“原因与结果是世界普遍联系和永恒发展链条中的重要一环。人类的活动是有目的的活动,对事物因果联系的认识是人类实践活动的前提之一。可以说人类的科学认识就开始于对事物的因果关系的探索”。在马克思主义哲学的理论体系中,因果关系是这样定义的:“一种现象对于被它引起的现象来说是原因,对于引起它的现象来说就是结果。事物之间这种引起和被引起的关系就是因果关系。”在探索因果关系的过程中,“不能仅仅依据前件与后件的几次重复出现便断定前件是后件的原因,因为先出现的不一定是原因,后出现的不一定是结果,虽然原因与结果一般来说有先后的顺序。人们在开始探索一种现象的原因时,往往要从在此之前的现象着手。先后多次甚至无数次出现,一般也能肯定其间的因果关系,但要最后肯定其间的因果关系,必须搞清楚原因引起结果的机制”。在马克思主义哲学的因果关系定义中,重点强调了原因和结果之间引起与被引起的关系,并且明确指出,“最后肯定其间的因果关系,必须搞清楚原因引起结果的机制”,深刻揭示了因果关系应有的内涵。在前面关于火灾伤亡人数和消防车数量之间统计关系的例子中,我们可以观察到,出动“消防车数量多”的火灾,“伤亡人数多”,但火灾中“消防车数量多”并不会引起“伤亡人数多”,因此,根据马克思主义哲学关于因果关系的概念,两者之间只有相关性而没有因果关系。与此相反,“太阳照射”和“石头温度升高”之间,“太阳照射”会引起“石头温度升高”,“石头温度升高”会被“太阳照射”引起,因此,根据马克思主义哲学关于因果关系的概念,两者之间具有因果关系。在马克思主义哲学的因果关系概念中,通过对原因和结果之间引起与被引起关系的强调,对相关性和因果关系进行了明确、有效的区分。因此,本书将基于马克思主义哲学的因果关系概念进行因果推断相关内容的介绍。