前言

本研究起源于高考自主命题的质量控制研究,具体因测试辩论法研究中的逻辑谬误而起,后逐步深入到理性辩论方法、测试效度概念和语言能力构念等方面的理论与实践研究。

首先,本研究结合形式逻辑和理性逻辑的推理机制,分析了当前测试辩论法研究中普遍存在的逻辑错误及其产生的根源。

形式逻辑由大前提、小前提和结论三个要素构成,也称三段论。三个要素都是一个断定或否定一个类别的全部或部分成员包含在另一个类别之中的陈述句(称为直言命题),其中的主项(主语部分)和谓项(谓语部分)都可以形式化为符号。用符号表示的逻辑推理类似于代数演算,完全依赖于符号的形式而与意义无关,这种逻辑因而称为形式逻辑。形式逻辑是逻辑学的理论基础,可根据推理规则演变出多种推理形式,在日常生活和科学研究中都具有广泛的应用价值。不过,形式逻辑的命题都是非是即否、容不得例外的绝对断言,即具有绝对性,而推理出来的结果无法区分到底是假定还是事实,即具有歧义性。绝对性使得其应用范畴仅限于不存在例外的情况;歧义性则是导致哲学上的世纪争端——“存在性之谜”的根源。

为了克服形式逻辑理论上的缺陷和应用上的局限性,Toulmin(1958)提出一个由数据、理由、支撑、反驳、限定词和声明六个要素构成的逻辑推理结构,称为图尔明模型。图尔明模型是通过将三段论大前提分解为假定性理由和事实性支撑,同时在三段论结论中增加一个反映例外情况(称为反驳)的限定词而构成的。通过区分假定和事实并将推理过程建立在假定之上,就可以确保声明也是假定而不是事实,从而避免了三段论的歧义性;由于兼顾例外限定了声明,得出的结论不再是绝对断言而是理性结论,这又克服了形式逻辑的绝对性。按照图尔明模型进行推理,既要“有理有据”,还应“兼顾例外”,这是逻辑推理的理性之所在,这种逻辑因而被称为理性逻辑。而图尔明模型之所以被视为辩论模型,是因为模型充分体现了理性辩论的思想,即双方证实各自的声明时都应该做到“有理有据、兼顾例外”。

当今测试效度研究强调分数解释与使用的合理性,呼吁采取理性辩论的方式进行测试效度验证,先后产生了三个具有代表性的测试辩论模型:Kane(1990,1992)针对分数解释提出解释辩论(Interpretive Argument—IA);Mislevy et al. (2003)针对测试开发提出以证据为中心的设计(Evidence-Centered Design—ECD);Bachman(2005)和 Bachman & Palmer (2010)针对测试使用提出测试使用辩论(Assessment Use Argument—AUA)。三个模型的逻辑结构并不相同,但都被贴上了“图尔明逻辑结构”的标签,导致测试辩论法研究中出现了三个不同版本的“图尔明模型”。对比分析可以发现,三个研究实际上都按各自的意图修改了图尔明模型的逻辑结构。但修改之后,原模型中“有理有据、兼顾例外”的理性逻辑荡然无存,取而代之的是“先声明后论证”的矛盾思想和“抓住例外不放”的非理性逻辑。三个研究都是先根据证据和理由作出声明,随后又强调必须先论证最大异议(IA中)、对立假设(ECD中)、反声明(AUA中)等反驳情况(因而都试图在模型中增加一个反驳的证据要素),然后再决定到底是接受还是拒绝之前作出的声明。如此先声明后论证,不但自相矛盾,而且模型中所有要素的概念都变得名不副实、是非不分:证据不足为证,理由形同虚设,声明实为假设,反驳反倒成了决定声明是否成立的前提条件。偷换了图尔明反驳的概念之后再强调论证反驳,实质上就是抓住例外不放(图尔明模型中的反驳原本就是指例外),这也就是日常生活中常说的“钻牛角尖”。但反驳也有自己的反驳,而且一个声明的反驳的反驳正是声明自身。既然强调作出声明之前必须先论证反驳,那么同理,论证反驳之时也必须先论证反驳的反驳。如此抓住反驳不放,推理过程必将陷入无限循环而且自相矛盾,除非最终放弃论证反驳并强行作出声明,否则永远无法得出结论。

进一步分析发现,之所以产生逻辑错误,除了误解和误用了图尔明反驳以外,三个研究还曲解了图尔明模型的辩论思想,都将模型中声明者证实自己声明的理性推理过程曲解为辩论双方针锋相对的争辩过程,因而都试图在模型中增加一个证据要素来对反驳进行论证。其实,辩论过程中双方的观点相左,声明相反,双方互为反驳方,同时又都是声明者,反驳对方是通过证实自己的声明来实现的,所以,反驳实际上是任何一方作为反驳方时的声明,而所谓的反驳证据就是反驳方证实其声明的数据。在理性的辩论过程中,双方都不会因为有可能遭到反驳而放弃声明,也不可能一一排除反驳之后再作出声明,更不会主动去证实反驳来否定自己,所以,在声明者证实自己的声明的逻辑推理过程之中嵌入对反驳的论证过程,必然会导致逻辑错误。所谓的反驳证据原本就不应该存在,无论如何定义、怎么命名,都将逻辑不通。三个模型的分歧也正是出现在这个地方,甚至出现“将支持反驳和拒绝反驳的都称为反驳支撑”这种是非不分的命名方式。

其次,本研究结合统计分析的概率原理和理性逻辑的推理机制,提出一个将科学研究方法有机融入理性辩论模型的逻辑结构——累进辩论(Progressive Argument),不但修正了前述三个测试辩论模型中的逻辑错误,还可以克服理性逻辑难以应对复杂数据的不足。

累进辩论由基础部分的逻辑推理和扩展部分的统计分析两部分组成。前者用于数据足以为证(理由充分、反驳不足为虑)时,直接使用图尔明模型进行“有理有据、兼顾例外”的理性逻辑推理;后者用于数据复杂、难以凭主观评判得出结论时,先进行统计分析甚至假设检验来获取足以为证据的新数据,然后再回到基础部分按图尔明模型进行推理。联系两个部分的是一个新增要素——条件判断,用于评判数据是否足以为证并决定推理过程的走向。累进辩论是在图尔明模型的基础上扩展而来的,虽然新增了条件判断、统计分析(含假设检验)两个要素,但并未改变图尔明模型的理性逻辑机制,所以仍然是理性辩论模型。

条件判断位于数据和理由之间,用于判断数据是否足以为证,或者说,数据是否为包含了充分理由的证据数据。图尔明模型并没有对此条件进行判断,因为数据足以为证是使用图尔明模型进行逻辑推理的前提条件,换句话说,图尔明模型仅适用于数据足以为证的情况。辩论过程中,出现数据不足为证的情况时,按照图尔明模型的辩论思想,就不能强行推理而只能放弃声明。不过,放弃声明虽是理性选择,却也反映出回避问题的消极态度,这无论是在科学研究还是日常辩论中都是不可取的。纳入条件判断要素,要求在复杂数据面前不应简单放弃声明而应通过统计分析进一步求证,这不仅体现了解决问题的积极态度,更主要的是还为模型增加了处理复杂数据的逻辑机制,因而更具实用价值。

统计分析以概率原理为基础,相较于日常辩论的逻辑推理,尽管更为复杂并涉及相关学科知识的应用,但从根本上而言,仍然是理性的逻辑推理过程。首先,统计分析方法的选择依赖于主观的逻辑评判;其次,使用统计分析方法的过程中,研究者需要不断地运用专业知识和经验以逻辑推理的方式进行评估和调整;最后,研究结果无论多么复杂、深奥,逻辑上必须讲得通,结果解读也完全是“有理有据、兼顾例外”的理性逻辑推理过程。其实,统计分析虽然在不懂统计的人看来深奥难懂,但对于掌握了统计方法的人而言却是常识,完全依赖主观评判。所以,纳入统计分析并没有改变模型的性质,从根本上来说,累进辩论仍然是理性辩论模型。

之所以称为累进辩论,是因为模型具有循环与递归的累进机制。所谓循环,指的是模型的重复使用——每解决一个问题都需要单独使用一次模型,独立地进行一次理性辩论。所谓递归,指的是模型的嵌套使用——在解决一个问题的辩论过程当中,启动子辩论解决更深一个层次的问题,之后再回到当前辩论中子辩论的起始点,辩论过程继续向前推进。累进辩论将辩论过程分为设计和实施两个阶段。设计阶段,以问题为导向,由果及因逆向推理,详细规划循环和递归需要解决的问题。实施阶段,以证据为依据,由因及果正向推理,一一解决所有规划的问题。累进以前任环节的结果为基础,并对所有后续环节的结果产生影响,最终问题的结论是所有前任环节结论层级累进的结果。

再次,针对当今测试效度观和语言能力理论的不足,本研究基于累进辩论的思想提出“以目标构念为中心、以环节效度为基础”的累进效度(Progressive Validity)的概念,并借鉴“信息三论”的主要观点和计算机面向对象技术的原理提出话语信息认知处理能力(Cognitive Processing Ability of Discourse Information)和信息最大化命题法(Information-Maximization Item Development)。

累进效度是在批判继承了整体效度观的基础上提出来的,继承了整体观对效度内涵的诠释方式,但批判了整体观狭隘的现实主义思想。整体观提出用构念效度一统所有其他效度类别,强调广泛收集效度证据从正反两个方面对分数解释与使用的合理性进行辩论。这种观点提出从目标构念的体现程度和测试使用的裨益后果的角度来看待效度问题,并呼吁效度辩论而不是效度研究,不仅促进了人们对测试效度的认识,更有利于克服机会主义和证实主义偏差。就此而言,测试效度整体观可谓测试发展史上的里程碑。不过,整体观将效度的概念内涵和验证过程局限于分数的解释与使用,这就意味着分数产生以前的测试环节既不属于效度的概念范畴,也被排除在效度的验证过程之外。事实上,测前环节是测后环节的前提和基础,如果测前环节的数据不能充分体现构念、数据使用不具理想的裨益后果,测后的分数解释与使用都将失去意义。

为了克服整体效度观只顾测后的分数解释与使用而忽视测前环节基础作用的不足,本研究提出从“数据解释与使用”而不仅仅是“分数解释与使用”的角度来界定测试效度。由于每个测试环节都会产生相应的结果数据,因此每个环节都具有效度,并且是所有前任环节效度层级累进的结果。累进以前任环节为基础,并对所有后续环节产生影响,一个环节出现效度问题,后续环节只能受其影响而无法反过来进行弥补,因此累进效度最大不大于最薄弱环节的效度。强调效度的累进,既是为了倡导测前采取伪证态度排除质疑、控制风险,也是为了防止测后采取机会主义和证实主义态度回避问题甚至掩盖问题。为了能为测试实践提供具体指导,本研究进一步提出将测试过程分解为设计、开发、实施、评分、使用和参照等六个主要环节,并在综述相关研究成果的基础上明确了各个环节效度验证应该关注的焦点问题和主要证据来源。

每个环节的结果数据都应该充分体现测试的目标构念,效度验证正是针对这一问题进行检验,这又要求首先必须明确测试的目标构念到底是什么。语言测试的目标构念无疑是语言能力,语言测试设计之初就应该对语言能力有明确、清晰的界定。当今语言能力理论框架虽然能在宏观层面为测试实践进行方向性指导,但对必须根据具体语篇中的微观语义来编写试题的命题工作而言并没有实际性的指导意义。为了能从具体语篇、微观语义的层面为命题工作提供切实指导,本研究首先以系统论、信息论和控制论“信息三论”为指导,提出话语信息认知处理能力观,并建构了话语信息认知处理系统框架和话语信息认知处理能力模型;然后以计算机科学领域面向对象技术的原理为指导,借鉴计算机认识世界事物的方法提出语义的结构形式和计算单位,实现话语信息的认知量化与计算;最后在话语信息认知量化的基础上,进一步提出信息最大化命题方法,通过强化最大化计算、抽样加权、归类整理、题目编写等命题环节来提高语言测试的命题质量和开发效度。

最后,本研究通过一个命题示例和两个研究实例,分别介绍信息最大化命题方法的使用和累进辩论法在真实语言测试研究中的应用。命题示例所用语篇仅有150个词,但编出了4道多项选择题和16个选项。所有选项均与语篇密切相关,总体上全面、均匀覆盖了所有重要内容,并且相互之间不交叉、不包含、不对立、不暗示,充分体现了测试的开发效度和信息最大化命题方法的优点。第一个研究实例主要针对命题期间的选项可猜性评判与控制问题进行讨论,同时兼顾调查我国高考命题对选项可猜性的控制情况。第二个研究实例以2014年湖南省高考考生水平评价与教学建议研究为例,介绍如何应用累进辩论法在测后环节开展累进辩论。不过,由于研究人员未能介入测试的设计、开发、实施和评分工作,效度证据只能从测前各个环节的结果数据中重新采集,这正是整体效度观的效度验证方法。测后环节虽然也可以以累进辩论的方式反过来从测前环节收集证据,但如果测前环节存在问题,测后只能证明问题的存在而无法进行弥补。这个实例确实也证明有关考试的设计环节和开发环节都存在问题,而如果运用本研究所提出的累进辩论法,在设计和开发期间及时进行效度验证,两个环节出现的问题都是可以避免的。所以,这项研究也以实例证明基于测后分数解释与使用的效度观的不足及其危害性。

由于涉及面广,本研究未能针对各个测试环节的效度辩论分别展开讨论,信息能力构念研究和信息最大化命题方法研究的相关成果也有待于测试实践的进一步检验。

邓杰

2018年9月

于长沙