计算机辅助自适应性语言测试再思考-中国期刊网

首页 > 《学术月刊》 > 2013年3期 > 计算机辅助自适应性语言测试再思考

（整期优先）网络出版时间：2013-03-13

作者: 张亚兰孙晓彤

打印

同系列资源

/ 4

计算机辅助自适应性语言测试再思考

张亚兰孙晓彤

（天水师范学院外国语学院，甘肃天水741001）

[摘要]与传统的纸笔方法相比，计算机辅助自适应性语言测试（CALT）能通过较少的测试项目和较短的时间更可靠、更精确地估算出考生的语言能力，所以在欧美各国已被广泛应用。在我国，也有越来越多的测试专家致力于对这种新测试形式的研究，力图将其广泛应用于NMET、TEM、CET、PETS等大规模语言测试中。本文阐述CALT的理论基础和主要优点，同时也指出，作为一种较先进的测试形式，CALT所面临的问题也值得我们思考。

[关键词]计算机辅助自适应性语言测试项目反应理论语言能力

[作者简介]张亚兰（1966—），女，甘肃天水人，甘肃省天水师范学院外国语学院副教授，研究方向：英语教学与测试。

[中图分类号]TP39[文献标识码]A[文章编号]0439-8041（2013）03-0050-04

一、CALT的理论基础

CALT是指把计算机适应性测试（Computer-adaptiveTesting，简称CAT）的原理和方法运用到语言测试中去，它是一种技术上受计算机终端和PC管理的先进的测试语言能力的方法。它采用项目反应理论为教学模型建立题库，并以此根据题目的各方面信息和考试者的答题情况，从题库中选出符合考试者语言水平的题目进行测试，迅速准确地估计考试者的语言能力，直到达到预定的测试精度（即标准）要求，即可结束考试。

CALT的主要理论依据是项目反应理论(ItemResponseTheory,简称IRT)，IRT亦称潜在倾向理论（LatentTraitTheory），是针对经典测试理论（ClassicalTestTheory）的不足而提出和发展起来的一种新的测试理论。

在实际测试中，常用的IRT参数模式主要有三种（孔文，2006）：

（一）单参数模式(One-ParameterModel)，亦称Rasch模式，是丹麦数学家GeorgRasch首先提出的，其ICC可由下列方程式表达为

Pi（θ）＝exp（θ－bi）/[1＋exp（θ－bi）]

Pi（θ）表示能力为θ的考生对项目i的答对概率，exp是一个常数（≈2.718），bi是项目i的难度参数。

（二）双参数模式（Two-ParameterModel）的ICC可由Birnbaum提出的公式表达为

Pi（θ）＝exp[Dai（θ－bi）]/1＋exp[Dai（θ－bi）]其中ai为项目区分度参数，D为调整因子（≈1.7）。

（三）三参数模式（Three-ParameterModel）由Lord等人提出，增加了一个表示项目猜测度的参数ci值，其ICC方程式为

Pi（θ）＝ci＋（1－ci）exp[Dai（θ－bi）]/1＋exp[Dai（θ－bi）]

IRT的参数具有不变性，即试题项目的参数估计（bi，ai，ci）独立于用来实测或预测的考生组的特性并且考生能力的参数也独立于所使用的项目组或试卷，因此IRT极为适合计算机适应性测试。

二、CALT的优点

CALT也被称为“量体裁衣”式测试（TailoredTestes）。这是因为计算机可以根据每个考生的不同能力生成不同的试题以便在尽可能短的时间内精确地测试出每个考生的真实能力和水平。根据Madesn（1991），Dunkel（1999），桂诗春（1989）等学者和组织的研究，CALT的优点可概括为以下几个方面：

（一）保证测试有较高的信度和效度

测试的信度与效度是语言测试中最重要的两个要素，测试的科学性与准确性完全取决于该测试是否具有高效度和高信度，即测试的内容是否完全符合测试目的、测试的结果是否客观可靠。在传统测试中，由于不同考生接受同一批题目的测验，语言水平低的考生无法作答难度大的题目，那些难度小的题目对语言水平高的考生又测不出真实水平，测试的效度时而高、时而低，难以把握。CALT则不然，在测试中，电脑能根据题目的相对难度、题型、题性和考生对初始题目应答的整体表现，适度调整出与考生水平相适应的题目。因此，由于测验的信息量最大，也就能最大限度地测算出代表考生实际语言能力的成绩，测试的效度也就最好，实得分数分布与目标分数的拟合度也就最好。同样，就信度而言，传统的测试评分往往由人工评判，虽然有统一的参考评判尺度，也难免会因人而异产生误差；CALT则通常具有良好的稳定性（Stability）、等值性（Equivalence）与客观性(Objectivity)，且考生每答对一个试题就会重新估算一次考生的能力估计值，测试之后能马上反馈测试结果，各项工作由电脑自行进行，排除了人为的因素，测试成绩公开、公正、公平、真实可靠、准确性高（周红红，2011）。

（二）测试具有良好的反馈和反拨作用

由于测试是在计算机终端上进行，所以考试一结束，考生便可立即知道自己的分数以及测试的一些统计数据，有利于其以后针对性的复习。同时，CALT使测试具有较高的真实性，促使考生在考前考后通过完成真实的语言任务来提高语言能力。因此，测试真正成为语言教学的“忠实仆人”，而不再是“指挥棒”。

（三）测试有较高的安全性与实效性

CALT的题库中项目多，题型广，因而可较全面地测试每个考生的语言水平。而且几乎每位考生的考题都不一样，这样就最大限度地减少乃至杜绝作弊和抄袭情况。另外，无纸化试题的保密性也比较高。较之传统的纸笔测试，CALT题量少，考试时间短，节省了大量的人力物力，降低了成本。测试之后能立即计分并报告成绩和给出反馈，不但快捷，且经济实效。

（四）测试过程人性化、个体化

多媒体技术在CALT中的应用，使得卷面形式发生了巨大变化。色彩丰富的表格、图形、动画甚至电影剪辑等使原本单调、呆板的考试形式变得直观、生动、有趣。有的考试中还配有鼓励语，激励考生克服困难。这种测试为冷冰冰的考试增添了不少人情味。Stevenson和Gross（1991）的问卷调查表明，很多考生更喜欢这种形式的考试。在传统的考试中，不管考生实际语言能力如何，都必须做大量的固定的试题，需要较多的时间；而在CALT中，后面试题的呈现是以前面答题的反应情况来决定的，或难或易，循序渐地进行（王丽，2011）。同时，CALT还可以根据不同的测试对象确定不同的常模，考试的内容、题量因人而异，有针对性的施加测试题目，具有无可比拟的个体性，符合外语教学改革的要求。

（五）有利于开发新题型

题型在语言测试中起着举足轻重的作用，但由于技术条件的限制，很多题型难以开发和实施。计算机介入语言测试，为创造和推广新题型提供了条件。例如，文章复原法（高炳梁，2007）便是在美国较为流行的测试软件之一。它要求学生在限定的时间内读完一篇短文，然后短文内容从屏幕上消失，但保留每个词的字母数，标点符号等。学生根据对短文的理解和记忆，逐词复原短文。该题型不仅可以测验学生对词汇、句子的掌握情况，而且还能考查学生综合运用语言知识的能力。这种新题型只有在计算机上才可实施，传统的纸笔测试是无法做到的。

三、问题与思考

经过二、三十年的发展，CALT正日益完善，但从总体上来说，这种测试仍处在开发和研制阶段，还面临着诸多问题与挑战。

（一）理论方面

1、IRT理论的正确应用

如前所述，CALT的主要理论依据是IRT，它由一套基本的假定、项目特征函数或项目反应函数、项目特征曲线、测试信息函数、项目信息函数和相对效率函数等组成。因此，在运用时要全面考虑这些因素。如果不能满足IRT所必需的前提条件就盲目地使用，便会产生不良后果。

2、测试的信度和效度问题

根据Dunkel（1999）的观点，语言测试的信度与效度问题是CALT的基本原则问题，前者指的是CALT是否正确体现了构成外语测试信度的几对关系（一般因素与信度、环境因素与信度、个体因素与信度）；后者指的是内容效度（ContentValidity）、结构效度（ConstructValidity）、尺度相关效度（Criterion-RelatedValidity）、一致性效度（ConcurrentValidity）（与其他类型CALT如CAT，TOEFL等语言测试的一致性）和预测效度（PredictiveValidity）等。

3、测试题目的交际因素含量问题

根据Canala和Swain(1980)的外语教学与测试的交际能力模式，外语教学的目的是培养学生的交际能力。测试考生交际能力的高低则通过对语言行为的衡量来判断，即需在交际、环境、话题和目的等语言使用环境中测试考生的语言组织能力与语用能力。但是由于语用背景是具体的，千变万化的，没有固定的模式可寻，难以数字化和信息化，测试结果也只能被看成在考试所设计的背景下的特定的运用外语行为，而非考生在真实外语生活环境下的交际能力。因此，如何锁定测试目标，设计出充分体现交际能力的真实测试项目是CALT须解决的最为棘手的问题。

4、起始题目、题型与语言测试目标能力关联性问题

起始题目、题型的选择对整个测试过程起着关键的导航作用，不同起始题目与题型的选择对不同目标能力初步估计值的效度也不同，直接影响到目标测试能力的准确定位，比如，分离式的选择题可以很好地测量学生对语言分项的掌握，却难以测量整体的语言水平与交际能力；综合性的完型填空是估计考生阅读理解较好的起始题型，但它还不是估计综合经验能力的最佳题型。（陈冰冰，2005）这是一个亟待专家、学者重视的问题。

（二）操作中的问题

1、题库的建设和保密

题库项目的数目、广度和深度对试题的效度和信度至关重要。那么题库中应该存储多少项目呢？从理论上讲，越多越好。但在实际中由于受物力、人力、时间等限制，建造一个庞大的题库非常不易。为了防止题库的泄露及商业化，有关部门必须禁止委托命题的单位出卖试卷和题库；禁止考生在未经允许的情况下私自拷贝试题；题库要不断地更新和扩充；不同的题库点可经常交换题库。

2、CALT的设计与评分

Brown（1997）曾从CALT的设计、评分等方面对CALT面临的问题与挑战阐述了他的观点，他认为怎样对CALT进行测试、CALT是否应有一个标准长度或根据不同的考生而不同，怎样对CALT项目进行取样，改变CALT项目的难度会产生什么结果，如何对CALT进行评分，怎样确定及格线等问题仍是CALT面临的最大挑战。

3、考生是否可以选择题项？

在传统测试中，如果碰到不会做的题，考生可以跳过不做。但在CALT中，这样会引起一系列问题。首先，如果被空的项目不记分，一些考生就会把较难的题跳过去直接找出会做的项目。根据Lunz和Bergstorm（1994）统计，这些考生往往会得到与其能力不相称的分数；但如果把被空的项目做错，会对计算机自动选择下一道项目产生一定的影响。

4、如何终止测试？

CALT测试的终止方法主要有两种：第一种是当计算机对考生能力的估算达到预定的精确值时，测试即终止。但是估算每位考生所需的项目数和时间则不统一。第二种方法是统一测试时间长度。但是两种方法各有缺陷。Stocking（1987）曾指出如果测试时间长度不一，会导致用较少项目和较短时间测出其能力的考生分数上的偏差，影响考试的信度；如果测试时间长度一致，则CALT的优势也得不到充分发挥。

（三）计算机相关问题

1、计算机本身的局限

虽然计算机一屏的容量已有所扩大，但毕竟有限。这一方面限制了像阅读理解等考题的长度，另一方面也给考生做题带来一定的麻烦。除此之外，由于计算机程序只有在收到答案后才会根据答题情况选出下一道题，因此考生既不能调整题序，也不能修改已经确认的答案，更无法在考题上做任何帮助解题的标记。这一切也会对测试的效度及信度造成一定程度的影响。

2、考生的计算机熟练程度

语言测试测量的是考生语言技能或能力,不是计算机能力,测试的表现形式不应对考生成绩有任何的影响。如通过屏幕来阅读与阅读纸质考卷需要不同的认知技能，另外，手写与键盘输入也存在本质的不同(Blackhurst,2005)。这就需要我们研究传统考试与计算机化考试的对等性,分析计算机化考试的效度以及可靠性。而且，考生对计算机的熟练程度还包括使用计算机的态度、使用计算机的焦虑水平以及计算机资源等。

计算机化测试的实施就意味着高昂的成本。在1998年托福开始实施计算机化测试时,美国很多设施完备的测试中心都因为缺乏必要的设备而无法实施测试。即使在设施齐备的考试中心,也存在着出现技术问题的可能。另外，测试软件的开发、安装、应用以及计算机平台软件是否能够确保CALT的质量等都是CALT面临的较大问题。而CALT的受试者是否有机会接触、熟悉CALT系统、结构和具体操作，题库是否支持目标测试群体则是管理方面应关注的问题。

四、结束语

CALT代表着现代化教育技术改变测试手段的新方向，为语言测试的改革和发展提供了一条可行之路。但是，作为一个新事物，CALT还有许多方面需要改进和完善。我们应加强理论研究，一方面引进国外现有的测试软件，一方面开发具有我国特色的测试软件，并加快新题库的建设，进一步充实完善现有题库。随着语言教学的不断改革与进步，我们将充分发挥计算机的优势，紧跟国际语言测试的新形势，为我国的外语测试开辟新的天地。

主要参考文献：

1.Bachman,F.L.FundamentalConsiderationinLanguageTesting[M].Oxford:OUP,1990.

2.Blackhurst,A.Listening,ReadingandWritingoncomputer-basedandpaper-basedversionsofIELTS.UniversityofCambridge.ESOLResearchNotes,2005.

3.Canala,M&Swain,M.Theoreticalbasesofcommunicativeapproachestosecondlanguageteachingandtesting[J].AppliedLinguistics,1980,(1):1-47.

4.Dunkel,P.A.Considerationsindevelopingorusingsecond/foreignlanguageproficiencycomputer-adaptivetests[J].LanguageLearning&technology,1999,2,(2):77.

5.LordFM.ApplicationsofItemResponseTheorytoPracticalTesting[M].Hillsdale,NJ:LawrenceErlbraum,1980.

6.MadsenHS.Computer-adaptiveTestingofListeningandReadingComprehension[M].NewYork:NewburyHouse,1991.

7.StevensonJ&GrossS.UseofComputerizedAdaptiveTestingModelforESOL/BilingualEntry/EditDecisionMaking[M].NewYork:NewburyHouse,1991.

8.StokingML.Tosimulatedfeasibilitystudiesincomputerizedadaptivetesting[J].AppliedPsychology:AnInternationalReview1987(35):263-277.

9.陈冰冰.引领外语测试新方向——计算机调试性语言测试[J].外语电化教学,2005(4):67-71.

10.桂诗春,语言测试:新技术与新理论[J].外语教学与研究,1989(3):2-10.

11.高丙梁.计算机口试与面试的比较研究[J].外语电化教学,2007(2):77—80.

12.孔文,李清华.大规模语言测试的方向:计算机适应性语言测试[J].外语界,2006(2):76-80.

13.王丽.基于英语课程标准的计算机辅助高考英语口语测试的研究[D].华中师范大学,2011.

14.周红红.英语口语测试任务信度的实证研究[J].北京交通大学学报(社会科学版),2011(4):76-80.

（责任编辑：盛丹艳）

ReflectiononComputer-aidedLanguageTesting

ZhangYalan,SunXiaotong

Abstract:Comparingtotraditionalpapertesting,computer-aidedlanguagetesting

(CALT)ismoredependableandcanmoreaccuratelyestimatestudents’languageabilitywithinashorterperiodthroughlesstestingprograms.IthasbeenwidlyadoptedbyEuropeancountriesandAmerica.TherearealsoincreasingChineseexpertswhocommittedtothisnewtypeoftesting,expectingtoapplyittoNMET,TEM,CET,PETSandotherlarge-scalelanguagetests.ThisessaydisplaysthetheoreticalbasisandmainadvantagesofCALT,andtheproblemsinCALTthatmaywaitforustoconsider.

Keywords:CALT,itemresponsetheory,languageability