1.4 本书主要内容及安排

本书以图模型分析为主要工具,对变量之间的因果关系分析场景进行数学形式的描述,进而表达、解释和推断因果关系。后续各章内容之间的关系如下。

因果推断主要基于概率图模型的相关数学基础知识,因此,我们在第2章对因果推断所涉及的相关数学基础知识进行简要介绍。在概率论方面,包括随机变量的概率及其数字特征、概率的计算公式、随机变量的独立性概念及判断、贝叶斯公式及其应用,以及一元和多元线性回归;在图模型方面,介绍表达变量之间因果关系的两种方式——结构因果模型和图模型,图模型的马尔可夫性以及具有马尔可夫性的图模型中各个节点变量联合概率分布的因子分解。

变量之间的独立性或条件独立性关系,通常是根据定义,通过概率分布的量化计算及相关等式是否成立来判断。当变量之间的因果关系可以通过图模型来表达时,如何在不掌握变量的概率分布或结构因果模型这样的量化信息的条件下,仅仅通过反映变量间因果关系的图模型结构,来分析、判断节点变量之间的独立性或条件独立性关系呢?在第2章用图模型表达变量之间因果关系的基础上,第3章介绍基于图模型分析来实现变量之间边缘独立性、条件独立性的判断。在此基础上,引入d-划分的概念,并提出基于图模型分析的d-划分判断方法。

第4章是因果推断的重点内容,我们将采用前面介绍的图模型分析技术,对干预的因果效应进行分析,特别是在不实际执行干预的情况下,如何通过观察性数据对干预下的因果效应进行计算。我们首先介绍最简单的情况,以干预变量的父节点变量集合为调整变量,通过计算调整表达式对因果效应进行计算。在此基础上,我们将调整表达式的计算方法推广到更一般的情况——通过后门调整和前门调整对因果效应进行计算,并对线性系统中的因果推断进行重点介绍。最后对利用工具变量法计算因果效应进行简单介绍。

在第5章,我们通过反事实概念及数学表达式的引入,对与实际发生情况不同的虚拟假设情况下的相关概率进行表达、计算。第5章引入反事实分析的一系列概念和方法,包括反事实的概念、反事实分析的基本法则、基于结构因果模型的反事实量化计算、基于图模型的反事实分析后门准则。在此基础上,提出自然直接效应和自然间接效应的定义及其相关计算方法。最后,通过案例介绍反事实分析在医学、法学和社会学方面的应用。

在反事实分析的基础上,第6章对医学、法学和人工智能等领域关注的因果关系概率——必要性概率、充分性概率和充分必要性概率进行定义,在一些特定的简化、假设条件下,对这些因果关系概率进行量化计算,并以案例形式对这些因果关系概率在法学、医学和社会学方面的应用进行简单介绍。

第4章对一些简单的因果效应分析场景进行了介绍,这些因果效应一般可以通过后门调整或前门调整表达式完成计算。作为进阶内容,在第7章,我们对三种更为复杂的分析场景中因果效应的计算进行介绍,包括:非理想依从条件下因果效应的计算、已干预条件下因果效应(ETT)的计算,以及复杂图模型条件下因果效应的计算。

第8章基于观察性样本数据集,对反映变量之间因果关系的图模型结构进行学习,这一章以最简单的基于约束的IC算法为例,对一步步推导得到节点变量之间图模型结构的算法过程进行介绍。

最后,第9章对因果推断的应用进行简单介绍。由于前面各章内容中以案例的形式分别介绍了因果推断在医学、法学、经济学和社会学方面的应用,这一章以两节篇幅,分别介绍因果推断在推荐系统A/B测试和强化学习中的应用。

在全书内容安排上,第2~5章是因果推断的基本内容,第6~9章属于进阶内容。由于因果推断在医学、法学、经济学、社会学和人工智能领域的广泛应用,相关领域的读者可以根据实际需要对本书进行选择性阅读。为了尽量完整地为读者呈现因果推断的相关概念及方法,本书也对因果推断相关方法、理论的数学推导进行了介绍。对于重点关注因果推断应用的读者,可以略过这部分数学推导,重点关注结论及其应用。

为方便读者将因果推断知识尽快应用到实际工作中,本书在系统介绍因果推断相关概念、方法的同时,尽量结合代码对因果推断的程序实现进行介绍。由于相关软件较多、发展速度较快,本书在内容安排上以概念和方法的介绍为主、相关代码实现为辅,以简单的R语言程序为例,对一些因果推断的基本概念及方法的程序实现进行了介绍,其他如Python等语言的程序实现,以及其他因果推断相关功能的程序实现,有兴趣的读者可以进一步参考相关研究资料。