三分天下——出国留学英语考试的未来

常见问题2023-02-09 17:00:54佚名

托福(TOEFL)和雅思(IELTS)作为主流的国际通用出国留学英语考试在中国已经发展了很多年。2015年,托福和雅思在中国大陆地区各自考量达到60多万,二者势均力敌,双雄割据,平分天下。但在这看似牢不可破的格局之下,一股新生力量正在悄然积蓄着,期待着未来的爆发。它就是培生()集团在2009年推出的同样可以用于出国留学申请的PTE学术英语考试( Test of -)。

培生作为全球最大的教育出版集团,在中国大陆地区的品牌熟知度似乎不是特别高,但是说起它的子公司朗文(),那几乎是家喻户晓。甭管正版盗版,哪个学英文的孩子手里还没有一本朗文的词典?

这只小企鹅大家应该也很熟悉吧。企鹅()出版社的经典系列也是备受英语爱好者的追捧。

大名鼎鼎的经济学人(The )和金融时报( Times)也都曾经隶属培生旗下。

在教育与测试领域,培生也一直走在国际领先的行列。旗下的、BTEC、LCCI和EDI四个品牌所涉及的考试和认证业务覆盖了从基础教育到职业教育的全领域。

我在2011年第一次知道这个考试,当时就被它深深的吸引,并固执的认为它代表着语言测试的未来发展方向。在我看来,PTE-A考试具有以下三个核心优势:

先进的机器评分

PTE-A是出国留学英语考试中唯一采用全过程机器评分的考试。这一度导致PTE考试的推广受阻,因为毕竟在2009年培生刚推出这个考试的时候,人工智能( )还是一个遥不可及的概念,机器评分的效果在当时的语境下很难被接受认可。但随着近几年人工智能和机器学习的迅猛发展和在多领域中的广泛运用,机器批改不仅被人们接受,而且被整个行业疯狂的追捧,PTE-A的优势在近两年慢慢开始凸显出来。

随着出国留学人口数量的增长,TOEFL和IELTS考试对考官和判分员的需求越来越大。巨额的人力成本暂且不说,人工评分天生带有人为的随机误差的。考官数量越大,个体误差越不可控。双方都将目光转向了基于能够完成语音识别(Voice )和语义提取( )等自然语言处理( )工作的人工智能引擎的机器批改技术。

TOEFL方面,ETS在几年前就开始将GRE考试写作部分采用的机器批改引擎e-rater移植到TOEFL考试的写作中,但效果连ETS自己都不太满意。毕竟两个考试差异很大,GRE是学术能力测试,而TOEFL是语言能力测试,为GRE写作开发的引擎嫁接到TOEFL考试上来会非常水土不服。因此,目前TOEFL的写作仍然是机评与人评结合留学英语考试,而口语部分虽然前端是机器采样,但后台仍然是人工评分。而IELTS到现在连机考(-based Test)都还没有实现,机器批改为时尚早。

托福和雅思要想实现真正的全机器评分还有很长的路要走,因为毕竟这两个考试背后的剑桥大学英语考试部和美国ETS考试中心本身都没有技术基因,不具备独立开发批改引擎的能力,都需要与第三方合作开发。而智能批改引擎的核心在机器学习,即让机器来学习专家评分的过程。需要将大量的有效数据喂给机器进行学习引擎才能变得越来越“聪明”。

而培生的语音识别和智能批改技术早在上个世纪80年代就已经起步了。在全球范围内使用培生机器批改技术的客户包括美国教育部、美国国土安全部、荷兰移民归化局、国际体育组织(如FIFA和Asian Games)、世界顶尖大学和语言学校,以及全球范围内主流的航空公司和。在PTE-A考试推出的前一年,即2008年,财富杂志排行TOP 20中的8家公司,和同年度印度BPO公司Top 15中的11家都在使用培生的智能评分技术。

30年的技术积淀和数据积累,使得培生的PTE-A考试在智能批改技术领域短时间难以超越。而可靠的机器批改赋予了PTE-A考试无与伦比的优势:

出分快捷高效

因为是机考机评,所以PTE-A考试在没有严重的技术故障和不可抗力因素的影响下,2-5个工作日内就可以出分,最快的当天就可以收到成绩报告。这个好处大家自己都明白,我就不多说了。顺便说一下,PTE-A考试的成绩报告是电子形式,可以无限量提供,这对于同时申请多所学校,尤其是申请美国大学的朋友来说绝对是纯福利!

考试时间灵活

TOEFL和IELTS考试因为要考虑考官的时间排期和工作量,因此都安排在周末进行,每年考试场次都是固定的、而PTE-A考试因为不必考虑人力的因素,所以除去公休假期外全年均可报名,每天可选3个时段(有的考场只有2个时段)参加考试。相比之下,IELTS考试就比较坑爹了,口语考试和笔试时间还经常错开,这对于去外地参加考试的考生来说非常不友好。

分数公正公平

这是机器评分最核心的优势!!!雅思考试的口语和写作部分近几年因为考官水平参差不齐的原因频频遭到质疑,成绩复议的案例和成功率都与日俱增,各地考场都有三分老头五分师太的身影。这些质疑会严重的影响到雅思考试的信度,而我们在之前的文章里说过,对于像雅思托福这种大规模高风险标准化测试来说,信度关乎生死!PTE-A考试近两年考量的爆发,很大一部分原因就是很多考生刷雅思4个单项7分刷不到,转向PTE-A考试,结果很快就拿到了等效雅思4个7的PTE分数。

先进的反作弊手段

考试的信度也会受到一些外部因素的影响,比如作弊。托福和雅思考试近几年频频被取消成绩,对考生和考试本身都造成了巨大的伤害。2015年英国政府就TOEFL考场作弊事件作出了回应,取消了托福考试用来申请英国留学签证语言成绩的资格,并出台了专门用来签证的考场安全升级的UKVI雅思考试。但目前的UKVI雅思考试的考试安全和PTE-A仍然不可同日而语。

PTE-A每个考场的考位不超过15席,根据具体的人数现场会有1-2名监考官,整个考场内外监控摄像头无死角全程录像。考生进场离场要扫描手掌静脉纹路,而不是指纹(指纹可以造假且比较隐蔽),要进行拍照和电子签名。

除此之外,在正式考试之前,考生要进行一个30秒的自我介绍,而这份录音是会和成绩报告一起发送到考生要申请的学校的。这可以有效防止替考的发生。

最关键的是,PTE-A考试不是统一试卷,也不是AB卷,而是一人一卷。考场内有一台专门的发题的电脑将试卷发送至考试终端,每一个考位上接收到的试卷都是随机的,因此相邻考位之间的作弊几乎是不可能的!

这同时也增加了对考题预测的难度,其结果是,考生必须要将更多的精力放在语言能力的提升上,而非怀着侥幸心理希望走捷径。这对英语教学的反拨作用是非常良性的

先进语言测试构建

说起这个我就忍不住要吐槽雅思,到现在还是采用分离式测试( Point Test)把听说读写掰开来考查,这与“学术英语考试”的名称完全不符,因为考生在未来的学习场景中通常都需要将各项语言技能综合起来运用,比如上课要一边听一边边速记,或者听一段然后进行小组讨论,或完成一个写作片段,又或者是读一段文章然后对内容进行讨论。而TOEFL和PTE-A都采用了更符合学术场景的综合技能测试( Skill Test)题型。而PTE-A考试则将这一原则贯彻的更加彻底,在其20类题型中有11类都采用了综合技能测试项目,比例超过一半。

这种考查形式逼迫考生要对考试过程中的语言输入进行理解,然后才能完成相应的语言输出。一些神奇的考试技巧在此失去了作用,因此考生必须要在语言综合能力的提升上面多下功夫。通过PTE-A的备考和考试,考生在出国后能够更快适应学习环境,而不会像很多雅思考生一样,考了7分却跟不上课堂的节奏。

先进的学习生态支持

我在之前讲语言能力量表的时候提到过培生的GSE量表。

这个基于CEFR开发的量表有着更细的颗粒度(10-90,最小刻度1),更广的量程(延伸至A1 level之下),更丰富的语言能力和学习目标的描述(将CEFR扩充了近三倍)。而PTE-A考试完全基于GSE量表开发,因此考生能够获得当前测试分数与目标分数之间的差距的详细描述。关于这方面的内容我就不再赘述了,大家可以参照之前发过的文章:

同时,培生的官网提供了丰富的学习资源,这些资源涉及的学习目标都与GSE量表相对应。而作为全球最大的出版集团,与PTE考试配套的教材、教辅资源也极其丰富。在这点上雅思考试由于背后有剑桥大学出版社的支持留学英语考试,其备考学习生态也能够给考生足够的支持。而ETS只是一个测评机构,无力搭建这样的生态,所以托福考生的备考除了官方指南(OG)就只剩刷题(TPO)了。

结论

通过上面的比较我们已经看到,目前主流的出国留学英语考试中,雅思在考试本身的信效度方面的问题日益凸显,而托福方面在搭建学习生态这件事情上也是捉襟见肘;而二者在机器批改的道路上都还有很长的路要走。因此,尽管目前PTE-A在中国地区的考量还很小,但其优势非常明显。2016年PTE在澳洲地区的考量就达到了惊人的10万,在印度也有近7万的数据;在中国大陆地区近两年也增速迅猛,相信未来的一两年应该会有爆发式井喷。未来出国留学考试领域三分天下的格局业现在已初现端倪。

往期文章回顾

相关推荐

猜你喜欢

大家正在看

换一换