- 计算机自适应语言测试模型设计与效度验证
- 何莲珍 闵尚超
- 5字
- 2020-06-24 18:05:24
第一章 绪论
1.1 研究背景
随着计算机技术与测量理论的不断发展,建立大型的语言测试试题库并基于题库实现计算机自适应语言测试(computerized adaptive language testing)是近年来国外语言测试研究的热点问题。计算机自适应测试兴起于20世纪80年代中期,但直到80年代后期才真正被应用到语言测试领域(Canale, 1986;Henning, 1987, 1991; Meunier, 1994; Chalhoub-Deville & Deville, 1999;Alderson, 2000; Chalhoub-Deville, 2001; Chapelle & Douglas, 2006; Ockey, 2009)。相对于传统的纸笔语言测试(paper-and-pencil language testing)或普通的计算机辅助语言测试(computer-based language testing),计算机自适应语言测试有以下优势:1)测试信度与测试效率高;2)即时反馈效果良好;3)施考安全性好;4)测试的个性化程度高,等等。
计算机自适应语言测试的主要理论依据为项目反应理论(item response theory)。项目反应理论是一组用于阐述考生答题行为与潜在能力之间关系的数学模型,其最大优点是项目数据与样本数据之间具有独立性,即项目参数估计不受其所施测的样本影响,样本能力估计不受其所施测的项目影响。因此,即使考生在测试过程中所得到的考题不一样,仍可以对考生能力进行估计并直接比较,这一优点极大地推动了计算机自适应语言测试的设计与应用。
依据计分模式,项目反应理论可以分为二级计分项目反应理论模型和多级计分项目反应理论模型。二级计分项目反应理论模型中,考生在题目上的得分只有0分、1分两种可能性,二级计分项目反应理论模型包括单参数模型(one-parameter logistic model)、双参数模型(two-parameter logistic model)、三参数模型(three-parameter logistic model)。多级计分项目反应理论模型中,考生在题目上的得分有0分、1分、2分等多种可能性,常见的多级计分项目反应理论模型有等级反应模型(graded response model)、分部评分模型(partial credit model)和广义分部评分模型(generalized partial credit model)。
项目反应理论的基本假设为单维性与局部独立性,单维性指同一份考卷中的所有题目测量同一种能力。尽管长期以来,语言测试领域在语言能力的单维性问题上争论不休,但目前较为公认的一种观点是单维性是一个度的问题,而非存在与否的问题。局部独立性指考生在各道题目上的答对概率相互独立,即考生的潜在能力是影响考生答题的唯一因素,当排除这个因素的影响后,考生在不同题目上的答题行为之间不存在任何关系。但是在大规模英语测试中,局部独立性假设往往会被违反,因为常见的题型是若干道选择题基于同一篇章。在局部独立性假设被违反的情况下,采用标准的二级计分项目反应理论模型进行项目分析,不仅会导致模型与数据的不拟合,而且会因为对项目区分度的估值过高而导致对测试信息量——即对测量精确度——的过高估值。解决上述问题的一个有效方法是采用多级计分项目反应理论模型。该方法把基于同一篇章的若干题目看成一个整体,即把考生在同一篇章所有题目上的得分相加,作为一个多级计分题目,运用多级计分项目反应理论模型进行参数估计。除项目反应理论以外,计算机自适应语言测试的成功与否主要取决于其四个重要组成部分的功能,即题库、项目选择、能力估计、终止原则。
目前,国内关于计算机自适应语言测试方面的研究基本停留在文献综述或简要介绍上,只有极少数学者进行了计算机自适应语言测试模型设计的实证研究。国外关于计算机自适应语言测试方面的实证研究相对较多,主要探讨计算机自适应语言测试的模型设计与效度验证。下面我们将简要地介绍计算机自适应语言测试模型设计与计算机自适应语言测试效度验证方面的相关研究。
1.1.1 计算机自适应语言测试模型设计相关研究
Larson(1987)是语言测试领域中首例尝试计算机自适应语言测试模型设计的实证研究,在此项研究的基础上,近20多年来研究者们纷纷尝试,并取得了一系列的研究成果。表1.1列出了这20多年来计算机自适应语言测试模型设计方面的实证研究。
表1.1 计算机自适应语言测试模型设计相关研究
注释:2PLM为双参数模型;3PLM为三参数模型:GRM为等级反应模型;CTT为经典真分数理论
总体而言,在设计方面,绝大多数计算机自适应语言测试采用选择题或填空题的形式考查考生的词汇、语法以及阅读能力,仅有少数涉及听力能力,因为听力测试中的语音成分使得计算机自适应语言测试的模型设计过程更为复杂。大部分实证研究主要介绍题库建设(如Dunkel, 1999; Sumbling et al., 2007)或设计过程中的决策制定(如Laurier, 1999),有助于我们更好地了解心理测量模型与计算机技术在语言能力评估中的应用。题库建设之所以成为以往研究关注的核心问题,是因为题库质量事关计算机自适应语言测试所倡导的高测量精度与效度是否能在实际运行中得以实现。没有一个高质量的题库,无论项目选择程序、能力估计方法及终止原则有多科学,计算机自适应语言测试的成功都无法得到保证。尽管如此,过往的研究在计算机自适应语言测试题库建设方面仍存在以下四个方面的局限性:
第一,大多数题库仅采用独立项目,即每道题目基于一个独立的篇章,并采用二级计分项目反应理论模型进行项目参数估计(如Stevenson & Gross, 1991; Madsen, 1991; Brown & Iwashita, 1996; Young et al., 1996; Dunkel, 1999; Linacre, 1999; Luecht, 1999; Sumbling et al., 2007; Nogami & Hayashi, 2010),而在实际的语言测试中,尤其是听力与阅读测试中,使用最为广泛的题型是题组(testlet),即若干道题目基于同一篇章。题组在之前的计算机自适应语言测试中使用较少的原因是在若干个项目基于同一篇章的情况下,项目之间可能会相互关联,从而导致项目反应理论的基本假设——局部独立性假设——被违反(Rosenbaum, 1988; Sireci et al., 1991)。解决该问题的一个方法是将基于同一篇章的多个项目视为一个多级计分项目,并采用多级计分项目反应理论模型进行参数估计(Rosenbaum, 1988; Thissen et al., 1989; Lee, 1998)。Laurier(1999)的计算机自适应语言测试设计采用了这种方法,为我们提供了一个典型的例证。在该项研究中,Laurier(1999)不仅采用二级计分项目反应理论模型分析独立项目,同时采用多级项目反应理论模型中使用非常广泛的等级反应模型分析题组项目,有效地处理了局部独立性假设被违反的问题。通过采用包含二级计分独立项目和多级计分题组项目的“混合式测试设计”(Lau & Wang, 1998; Rosa et al., 2001), Laurier(1999)的计算机自适应语言测试模型最大限度地模拟了真实测试场景,为计算机自适应语言测试在语言测试领域的应用做出了杰出贡献。其他也有一些研究(如Young et al., 1996;何莲珍,2004)在计算机自适应语言测试题库建设中采用了题组项目,但是这些研究并没有提供局部独立性假设方面的诊断信息,而是将基于同一题组的项目和不基于同一题组的项目混在一起,采用二级计分项目反应理论模型进行分析,忽略了局部独立性假设可能被违反这一问题,所以其测量准确度仍有待商榷。
第二,虽然大部分题库包括词汇测试、语法测试、阅读测试等多个组成部分,但是很少有研究关注题库中的不同组成部分在多大程度上影响整个题库的单维性。目前语言测试领域的一个共识是:语言能力是多维的,不仅包含一个总的高阶能力因子,还包含若干不同的二阶能力因子(如Bachman &Palmer, 1981, 1982; Carroll, 1983; Bachman et al., 1990, 1995; Sasaki, 1996;Shin, 2005; Song, 2008)。因此,过往的研究中把不同测试部分(如听力、阅读、词汇与语法)的项目放在一起进行项目估计的习惯做法存在一定的问题。更具体地说,这种做法忽视了不同测试部分可能存在不同的能力因子,模糊了不同潜在能力因子间的界限,从而可能导致项目参数估计和考生能力估计的不准确。因此,更理想的方法是先检查不同测试部分的项目是否与同一测试部分的项目一样符合单维性假设,然后再确定各测试部分项目的校准方式,即合在一起校准或分别进行校准。
第三,在模型选择方面,过往的题库建设过分依赖Rasch模型(如Madsen, 1991; Stevenson & Gross, 1991; Brown & Iwashita, 1996; Young et al., 1996;Dunkel, 1999; Linacre, 1999; Luecht, 1999; Sumbling et al., 2007),极少有研究通过观察模型数据拟合度从一系列理论上可行的模型中选择最佳模型对项目进行参数估计。过往的研究倾向于使用Rasch模型的原因各异,有的是因为样本量有限,有的是为了使得计算机自适应语言测试系统运行更为简单。无论基于何种原因,Rasch模型在计算机自适应语言测试中的过度应用都值得商榷。Rasch模型的哲学理念与其他二级计分项目反应理论模型(如双参数模型、三参数模型)存在原则上的差别。Rasch模型以模型为驱动,关注的核心问题是数据是否符合选定模型,如不符合,则说明数据有问题;而其他二级计分项目反应理论模型则以数据为驱动,关注的是所选定的模型是否符合现实数据,如不符合,则更换模型重新拟合(Zumbo & Macmillan, 1999)。换言之,在Rasch模型倡导者的眼里,没有不好的模型,只有不好的数据。但是,这个观点在语言测试领域并不适用。我们不能因为某个项目或某个考生的反应方式不符合Rasch模型,就放弃该项目或该考生。相反,我们应该从一系列理论上可行的模型中根据模型数据拟合程度选择最佳模型对项目进行参数估计,对考生进行能力估计。但是,综合分析文献后发现,为数不多的未采用Rasch模型的计算机自适应语言测试研究在选择模型进行参数估计时,似乎也只是基于理论考虑或方便原则随机选取模型,并未考虑根据模型数据拟合程度选择最佳模型对项目进行参数估计。
第四,尽管项目功能差异(differential item functioning)的存在对计算机自适应语言测试的效度以及公平性构成极大威胁,但是迄今为止尚未有研究关注计算机自适应语言测试题库建设过程中的项目功能差异问题。相对于纸笔语言测试而言,计算机自适应语言测试更易受到项目功能差异的影响,因为在纸笔语言测试中,所有考生的考题一样,项目功能差异效应可能会弱化或相互抵消(Wainer, 2000; Wang, 2009)。但是在计算机自适应语言测试中,测试的题目数量相对较少,且不同考生所测的题目不同,所以项目功能差异效应无法减少,甚至会因人而异(Zwick,2000)。因此,在计算机自适应语言测试题库建设中,我们需要先对存在项目功能差异的项目予以剔除,从而确保计算机自适应语言测试对考生的能力估计不会出现偏颇(McClarty, 2006)。
1.1.2 计算机自适应语言测试效度验证相关研究
计算机自适应语言测试问世以来,研究者所关心的一个基本问题是计算机自适应语言测试是否改变了传统测试所测量的构念。尤其是在计算机自适应语言测试诞生之初,计算机使用并不普遍,很少有人知道在屏幕上阅读与在纸上阅读之间有什么区别,以及这种区别是否影响考生表现与考试分数(Douglas & Hegelheimer, 2007)。因此,研究者一直大力倡导探讨计算机自适应语言测试与纸笔语言测试的等效性、计算机熟悉度对考生在计算机自适应语言测试中的表现的影响、计算机自适应语言测试构念在男女考生群组中的一致性。下面我们将详细介绍计算机自适应语言测试效度验证的相关研究,并在此基础上指出以往研究的局限性。
(1)计算机自适应语言测试与纸笔语言测试的等效性
在计算机自适应语言测试与纸笔语言测试的等效性问题上,研究者争论的核心问题是:是否需要保证考生在计算机自适应语言测试中的表现与其在纸笔语言测试中的表现具有可比性。大多数研究者认为,无论是计算机自适应语言测试与纸笔语言测试同时存在,还是由计算机自适应语言测试取代纸笔语言测试,测试开发者和使用者都应该保证这两种测试形式之间的对等关系(Wang & Kolen, 2001; Kingsbury, 2002; McDonald, 2002)。但是有一些研究者(如Jones & Maycock, 2007)坚持认为,保证计算机自适应语言测试分数与纸笔语言测试分数对等不仅不切实际,而且没有必要,因为从施测特点与心理计量属性的角度来看,计算机自适应语言测试本身就优于纸笔语言测试。其次,不同的计分方式——纸笔语言测试的原始分(number-correct score)与计算机自适应语言测试的量表分(scale score)——使得分数不具可比性。Wang & Kolen(2001)、Kolen & Brennan(2004)和Eignor(2007)等学者详细介绍了支持或反对这两种观点的理由。
对实现计算机自适应语言测试与纸笔语言测试两种测试方式可比性持反对意见的研究者认为,两者的分数本身不具可比性,原因如下:第一,两者的测试内容不同。即使可以通过一定的项目选择算法保证两项测试中测试内容的比例保持一致(Eignor et al., 1993),计算机自适应测试所考查的内容会少于纸笔测试所考查的内容,因此不可能实现完全的可比性。第二,计分方式不同。计算机自适应测试中,考生所得分数是项目反应理论估计所得出的量表分,而纸笔测试中,考生的得分是原始分,前者是经过加权处理的分数,而后者不经过任何处理,因此两者的分数在性质上差异较大。第三,信度不同。计算机自适应测试中,对不同能力水平考生的测量可以通过误差控制使信度基本保持一致,而在纸笔测试中则无法做到。换言之,两者的条件测量标准误(conditional standard error of measurement)不同,因此无法满足等值中的二阶公平性(second-order equity; Kolen & Brennan, 2004)。第四,施测环境不同。考生在参加计算机自适应测试时,系统会根据考生对当前项目的作答情况为考生选择下一个项目,因此考生无法修改已作答的项目;而在纸笔测试中,考生可以随时跳过难题,先完成较有把握的题目,再返回去做较难的题目。第五,测试任务不同。计算机自适应测试以计算机为媒介,可采用一些传统纸笔测试中无法实现的新题型或新任务。对实现两种测试方式可比性持支持态度的研究者认为:在计算机自适应测试走向大规模使用前,往往会与其所对应的纸笔测试并行运行一段时间,在并行阶段,就完全有必要保证两项考试分数具有可比性。同时,虽然从理论上说,对两项考试进行等值需要满足二阶公平性,即两项考试的条件测量标准误保持一致,但在实践中,不同考试的条件测量标准误不可能完全相同(Wang & Kolen, 2001),因此这只是一个可比性程度的问题,而不是是否存在可比性的问题。
我们认为:研究者无须耗费这么多精力以保证计算机自适应语言测试与纸笔语言测试的等效性,而应当努力尝试了解计算机自适应语言测试和纸笔语言测试在多大程度上考查了不同的能力或构念。我们的理由如下:在这个全球化时代,人们花大量时间在计算机上进行阅读与交流,采用相关分析等简单效度验证法或规定性(prescriptive)效度验证法去探讨计算机自适应语言测试与纸笔语言测试的等效性已没有必要(Chapelle & Douglas, 2006)。过去那种认为所有语言测试在不同语境中均以同样方式考查语言能力的单一构念观点(Chapelle & Douglas, 2006)在全球化背景下已不再适用,因为它难以适应当前语言测试领域多样化的测试目的与测试语境。换言之,在这个全球化时代,交际语言能力的定义应考虑个体的语言能力与基于计算机的交际语境的相互作用(Chapelle & Douglas, 2006)。因此,计算机自适应语言测试效度验证的焦点不应该是计算机自适应语言测试分数与纸笔语言测试分数间相关性的强弱,而应该是计算机自适应语言测试是否考查了考试大纲所规定的相关能力。
然而,必须指出的是,虽然我们认为测试开发者无须舍本逐末地去保证计算机自适应语言测试与纸笔语言测试的等效性,但我们有必要保证计算机自适应语言测试与计算机辅助语言测试的等效性。计算机自适应语言测试和计算机辅助语言测试都是通过计算机施测,区别在于计算机自适应语言测试中的项目是临时分配的,是动态的,而计算机辅助语言测试中的项目是预先设置的,是静态的。因此,我们不能因为计算机自适应语言测试的自适应性而使计算机自适应语言测试所测量的构念与计算机辅助语言测试所测量的构念有所不同。也就是说,计算机自适应语言测试与计算机辅助语言测试的等效性是计算机自适应语言测试效度验证不可或缺的一部分。
通过对过往的研究进行仔细梳理后与回顾后我们发现,探讨计算机辅助语言测试与纸笔语言测试等效性的研究比比皆是(Fulcher, 1999; Jones, 2000;Sawaki, 2001b; Brown, 2003; Choi et al., 2003; Shaw, 2003; Green & Maycock, 2004),探讨计算机自适应语言测试与纸笔语言测试等效性的研究也有一些(如Coniam, 2006; Nogami & Hayashi, 2010),但数量相对较少。
Coniam(2006)采用描述性统计方法,发现计算机自适应听力测试以及与其对应的纸笔听力测试均能有效地区分考生能力水平。但是,考生在计算机自适应语言测试与纸笔语言测试上的表现存在显著差异。总体而言,考生在计算机自适应语言测试中的分数高于其在纸笔语言测试中的分数,两项考试分数间的相关性为0.76。Coniam(2006)由此得出结论:计算机自适应语言测试可应用于风险较低的测试中,但对高风险测试则不太适合。
Nogami & Hayashi(2010)采用单组平衡设计法探讨了考生在计算机自适应语言测试和与其相对应的纸笔语言测试中考分平均值和标准差之间的可比性。结果发现,在四个部分中,有三个部分的平均值存在显著差异,但是这些差异不是一致的,即考生在计算机自适应语言测试中各个部分的得分并不是一致性地高于或低于他们在相对应的纸笔语言测试各部分中的得分。此外,计算机自适应语言测试结果的标准差显著大于纸笔语言测试结果的标准差。然而,无论是分项还是整体,计算机自适应语言测试和纸笔语言测试分数之间的相关性均较高,分别为0.76~0.89和0.96。
可以看出,上述两项探讨计算机自适应语言测试与纸笔语言测试等效性的实证研究仅仅是通过描述性统计分析和简单的推断性统计分析(如t检验),来研究考生的成绩在这两种考试中是否存在显著差异。尽管早在20多年前研究人员(如Steinberg, Thissen, & Wainer, 1990)就已提出验证性因子分析是研究测试潜在因子数量与因子负荷跨模式对等性的一种强有力的分析方法,可用于计算机自适应测试的效度验证,但直至目前该方法仍未得到应用。
特别值得一提的是:迄今为止尚未有实证研究来探讨计算机自适应语言测试与计算机辅助语言测试的等效性。我们认为有必要在这一方面进行尝试。
(2)计算机熟悉度的影响
另一个与计算机自适应语言测试效度紧密相关的问题是考生特征与测试模式之间的交互作用(Sawaki, 2001a),尤其是计算机熟悉度对考生在计算机辅助语言测试中的表现的影响(Lee, 1986; Spray et al., 1989; Fulcher, 1999;Taylor et al., 1999; McDonald, 2002; Barkaoui, 2014; Hosseini et al., 2014)。探讨计算机熟悉度与考生的相互作用有助于我们了解在多大程度上计算机自适应语言测试考查了计算机熟悉度,以及在多大程度上计算机自适应语言测试研究结果可以概推到其他语言使用环境中(Alderson, 2000; Bachman, 2000)。
令人惊讶的是,到目前为止,很少有研究直接探讨计算机熟悉度是否影响考生在计算机自适应语言测试中的表现。鉴于相关研究的匮乏以及计算机辅助语言测试与计算机自适应语言测试在测试模式上的极大相似性,我们认为关于计算机熟悉度影响的研究不能局限于计算机熟悉度对计算机自适应语言测试中考生表现的影响,而应扩展到计算机熟悉度对计算机辅助语言测试中考生表现的影响,并希望借此展示计算机辅助语言测试领域关于计算机熟悉度的影响的研究现状。
人们会凭直觉认为计算机熟悉度必定会影响考生在计算机辅助语言测试中的表现。Wolfe et al.(1996)的研究也佐证了这一观点,发现计算机熟悉度较高的高中生在计算机辅助语言测试中的得分高于计算机熟悉度较低的考生;同样,Horkay et al.(2006)的研究也发现,计算机熟悉度对考生在网考作文中的分数有显著影响。但是,Horkay et al.(2006)明确指出,我们如何解读这种显著影响取决于我们对测试构念的定义。我们是想了解考生在纸面上的写作表现、考生在电脑上的写作表现、还是考生在其自主选择的测试模式中的写作表现?这是测试开发者和其他利益相关者在解读结果时必须考虑的问题。Jin et al.(2011)发现:大学英语四、六级网考中考生的得分与其计算机熟悉度之间有着显著的相关关系。作者明确提出:定义21世纪的语言测试构念需要融合计算机操作水平与语言能力。
当然,也有一些研究发现,计算机熟悉度与考生在计算机辅助语言测试中的表现并无显著关系。Taylor et al.(1999)认为,在使用协方差分析方法控制英语语言能力水平这一变量后,计算机熟悉度与托福机考成绩之间不存在任何有意义的相关关系。Fulcher(1999)同样采用协方差分析方法,发现计算机辅助语法分级测试中考生的计算机熟悉度与考试成绩无显著关系。然而,应该指出的是,协方差分析方法可能会低估计算机熟悉度高与计算机熟悉度低的考生之间的分数差异。同样,Maycock & Green(2005)指出,尽管多数考生认为计算机熟悉度高的考生在计算机辅助形式的雅思考试中得分会更高,但缺乏实证依据,计算机熟悉度并未对考生在纸笔型雅思考试和计算机辅助雅思考试中的表现带来显著影响。
从以上综述可以看出,已有的研究结果不尽一致,这或许是因为不同研究中所涉及的变量不同。其中最有可能的原因是:随着信息技术的飞速发展,计算机熟悉度正在发生变化,变化速度也因地而异,因此,无法从这些研究中得出一个统一的结论。然而,一些研究——特别是最近一项以中国学生为研究对象的研究(如Jin et al., 2011)——确实表明计算机熟悉度的差异可能会导致学生在计算机辅助语言测试和传统纸笔语言测试中所得分数之间的差异。因此,测试开发者和使用者在开发和使用测试时,应该考虑计算机熟悉度对考生在计算机自适应语言测试以及计算机辅助语言测试中的表现的影响。
另外需要指出的是,虽然已有的研究在使用计算机熟悉度测量工具时涉及计算机熟悉度的一个或多个方面(如计算机拥有率、对计算机的态度、计算机使用经历、计算机相关技术),但是这些研究均未考虑与计算机使用相关的焦虑因素,我们认为广义的计算机熟悉度应该包括这一因素。虽然一些研究者认为,计算机焦虑度和计算机熟悉度基本上是相同的构念(Levin &Donitsa-Schmidt, 1997; Powers, 1999),但是McDonald(2002)在对相关文献进行综述后指出,计算机焦虑度源于对计算机不熟悉这一观点过于简单化。特别是在计算机自适应语言测试中,考生没有机会返回已做过的题目或修改自己的作答情况,因此考生的焦虑程度可能会更高。Madsen(1991)也曾提到,在一项包括听力与阅读的计算机自适应语言测试中,考生的计算机熟悉度并没有影响其在计算机自适应语言测试时的焦虑程度。因此,从广义上讲,计算机熟悉度不仅应该包括Taylor et al.(1999)提出的计算机拥有率、对计算机的态度、计算机使用经历以及相关技术,还应该包括在计算机上考试时的测试焦虑。
(3)计算机自适应语言测试构念在男女考生群组中的一致性
效度验证的另一重要方面是测试的因子结构是否在不同群组中保持一致性。过往的研究在这一点上存在一定的局限性,往往只是从总体上探讨计算机熟悉度对整个考生群体在计算机辅助语言测试或计算机自适应语言测试中表现的影响方式及其影响程度,而忽略了一个重要的问题,即计算机熟悉度对不同考生群体在计算机辅助语言测试或计算机自适应语言测试中的表现是否会产生不同的影响。
随着计算机普及程度的提高,尽管计算机熟悉度对计算机辅助语言测试中考生成绩的影响有所降低(Taylor et al., 2000; Sawaki, 2001a; Dooey, 2008),但计算机熟悉度可能对某些群体的影响仍然会比较大(Wise & Plake, 1989, Wolfe & Manalo, 2005; Douglas & Hegelheimer, 2007),尤其是计算机普及率在不同人群中会有所不同(Dooey, 2008),因此计算机熟悉度可能会在不同程度上影响不同考生群组,从而影响考试的公平性以及考试的信度和效度。在语言测试领域,最受关注的问题是不同性别的考生群体是否会因其计算机熟悉度的差异而在计算机辅助考试中的表现有所不同(Fulcher, 1999; Taylor et al., 1999; Maycock & Green, 2005; Coniam, 2006)。过往的研究发现,男性往往比女性更多地接触计算机(Miller & Varma, 1994; Taylor et al., 1999),对自己的计算机操作水平更有信心,对计算机的兴趣更浓(Siann et al., 1990),对计算机与计算机辅助教学与测试的态度更为积极(Levin & Gordon, 1989)。因此,计算机熟悉度的性别差异可能会导致考生在计算机辅助测试中表现的差异,从而影响分数解释的有效性(Coniam, 2006)。
我们认为应该从宏观角度来定义计算机自适应语言测试的构念,主张计算机自适应语言测试构念应考虑语言能力和计算机技术之间的相互作用,但是如果计算机操作水平在不同程度上影响男女考生在计算机自适应语言测试中的表现,则又会引发公平性问题。因此,为了确保基于计算机自适应语言测试中考生表现所做的能力推断的公平性,我们必须保证计算机自适应语言测试构念不受性别影响,即男女考生群组的测试表现不会受其计算机熟悉度差异的影响。也就是说,计算机熟悉度与英语能力对考生在计算机自适应语言测试中的考分方差变异贡献量应该在男女考生群组中保持一致。然而,在语言测试领域,迄今为止尚未有研究探讨计算机自适应语言测试中所涉及的计算机熟悉度以及所考查的语言能力的因子结构是否在男女考生群组中存在一致性。一些研究者(如Maycock & Green, 2005)采用描述性统计分析和简单推断性统计分析方法探讨了性别对计算机辅助语言测试中考生表现的影响,结果表明,性别因素显著影响考生在计算机辅助语言测试中的表现。这里需要回答的问题是该显著影响是否可归因于不同性别存在不同程度的计算机熟悉度。因此,我们认为有必要深入探讨不同性别在计算机熟悉度上的差异是否会对男女考生群组在计算机自适应语言测试中的表现产生显著影响。
综上所述,过往的计算机自适应语言测试效度验证方面的研究存在三个方面的局限性:第一,没有探讨计算机自适应语言测试与计算机辅助语言测试的等效性;第二,在过往的研究中采用的统计方法过于简单,没有采用较为复杂的统计方法(如结构方程模型等)来探讨计算机熟悉度究竟在多大程度上影响计算机自适应语言测试所考查的构念,从而影响考生在计算机自适应语言测试中的表现;第三,没有探讨计算机自适应语言测试中所涉及的计算机熟悉度以及所考查的语言能力的因子结构是否在男女考生群组中存在一致性。