此次测评:豆包语文单科夺冠,大模型各题型表现几何?

雅思2025-10-21 09:05:35佚名

豆包这次考试语文单科考了128分,获得了第一名,第二名的分数比他低2分,4号同学考了118分,排在第三,5号同学考了117分,在第四,o3因为作文没写好,只拿到了95分2025山东高考文综,是最后一名。

综合来看,大型模型在单项选择和阅读分析类题目上成果显著,正确率普遍很高。这类题目核心是检验语言解析、资料提炼以及基础思维判断能力,而这些恰好是当前大型模型最为突出的强项。同时,部分论述题存在答案的固定化倾向,大型模型能够通过掌握数据中的答题套路,发展出比较强的固定句式输出能力,例如表述为“体现了作者的思乡情怀”。

而且,大型模型对于经典语句的记忆能力极强,全部五款模型都获得了满分成绩,大型的语言模型在训练期间接触了极为丰富的古诗、教材、测验资料等文字信息,早已对这些常见的题目内容非常熟悉并牢牢记住,所以当接到指令时能够迅速且精准地提取出相应的文字内容。

在写作练习方面,各种大型模型的水平差异很大,满分是六十分,其中某个模型获得了五十二分,豆包得到了四十八分,而o3仅有二十分。

o3 的高考作文

分析下来贝语网校,我们看到大型人工智能创作多数只能达到见解明确、布局周全的「达标」水准,缺少深度的问题剖析和稳固的思路延伸,例如 文章虽然紧扣中心,也条理分明,但辞藻堆砌之中不见亮点,缺少真挚情感和共鸣。

格式规范层面,眼下仍有些许瑕疵,譬如豆包洋洋万言,远超答题卡设定范围,o3 采用的文体非考试标准,倒似模型针对主题剖析及归纳的流程。

数学:去年还不及格,今年竟能考 140+

深度分析能力使大模型的数学表现大幅提升,与去年多数不及格的情况形成对比,今年许多大模型取得了 140 分以上的优异成绩,例如 R1、豆包、 就分别以 145、141、140 的分数占据前三名位置。

这个结果同我们早前的评估较为相似,不过并非完全吻合,关键在于解题步骤有所不同,这也表明大型模型的回应带有某种不确定性。

仔细分析,第 6 题是唯一失分点,全体成员都做错;其他题目完成得相当好,没有任何问题;豆包和 在最后一道难题的第三个部分犯了错误; 4 和 o3 在倒数第二个题目上丢分,而 4 还在两个选择题中漏掉了答案,因此最终排名靠后。

实际上,让众多大型模型全都失误的新一卷第 6 题并不复杂,主要失分症结在于这道题目融合了方框、虚线、箭头、文字等混合的图像符号,这些模型难以精确辨认,这也反映出大型模型在图像辨识和认知方面还存在进步空间。

新一卷单选第 6 题

难题中的最后题目,很多模型不能一次成功解决,常常会遗漏论证环节,或者演算步骤不够周密而被扣分。

英语:全员超过 140,几乎拉不开差距

使用大型人工智能进行英语测试非常轻松自如,五台大型人工智能全部获得 140 分,它们只在单项选择中出了差错,其余大部分失分都出现在文章写作部分。

上图是基于官方测评表格数据翻译和优化排版的图片。

颇为奇特的是,于考察环节已察觉到确切选项,但在后续的推演环节掺入了毫无依据的臆断,无视了与前后文的联系,因而导致了最终的误判。

至于作文题2025山东高考文综,满分 15 分,五家大模型的得分可分为两档。

豆包和4属于「12分档」,二者均全面满足了所有条件,组织严密,表达顺畅精准,信息量也十分丰富。豆包给出了具体的接力比赛案例,并设计了两种不同方案,4更是提出了关于为不同层次学生确保公平参与机会的深刻见解。

o3 和 属于「11 分档」。o3 的创意确实很棒,能够把栏目特色表现得如同游戏一般,然而其中「him」这类代词使用不够准确,从而损害了语言表达的严谨性。 的主要弊端在于句式过于单调,频繁出现「would」让文章读起来有些单调,另外结尾格式也没有完全符合题目规定。

政史地强得可怕,理科读图题失分较多

高考文科综合考试通常具有题目数量多、涉及材料繁杂的特点,即便是经验丰富的人士,想要获得优异的成绩也相当困难。

本次 2025 年山东文综卷竞赛里,豆包最为突出,获得了 270 分的优异成绩,领先优势非常明显,特别是在地理(94)和历史(92)这两门科目上,都取得了超过 90 分的好成绩。这可能是因为豆包大模型在处理条理清晰的资料和进行逻辑推理方面做得更好,比如地理题目中对于空间联系和图像信息融合的理解,历史题目中对于因果联系和材料核心思想的把握。

各科成绩分布均匀,虽然比豆包稍差,但没有任何明显短板,显示出其整体优化程度很高。地理科目获得了92分,成绩突出,但政治科目分数最低,主要问题在于分析题时未能充分结合教材观点。与豆包总分相差不大,没有明显弱项,不过也没有特别突出的优势。

相比之下, 的表现并不令人满意,文综总分只有 225 分,历史科目是最大的短板,只拿到了 67 分,其中第 18 题失分最为严重,因为系统出现了故障,导致材料信息没有被识别出来,从而失去了 12 分。

大模型的理科整体表现不如文科,其总分距离顶尖高校的录取标准尚有差距,大致相当于保底进入985高校的程度。该模型以248分的成绩获得第一名,领先第二名豆包13分,并且比第三名高出整整37分。

测试结果

这确实部分源于生物学和化学学科包含大量图表题,评估过程中提供的图像往往不够清晰,从而在一定程度上削弱了多模态模型的效能,造成较多分数损失。

拿到更清晰的考试题目图像后,Seed 团队通过图文结合的方法,再次对生物和化学进行了推演验证,发现豆包在生物化学两门学科上的累积分数还能增加将近三十分,这样算下来,理科三门的总成绩就提升到了六百七十六分。这一结果也表明,同时运用文字资料和图像信息进行多模态推理,能够更充分地发挥模型的性能。

图文交织输入示例

此外,我们还注意到,在物理难题中,许多模型存在运用范围外知识的情况,由于测试过程中未施加任何约束,模型或许并未意识到存在解题方法的限制。

一年提100多分,大模型何以从学渣变学霸?

去年,某科技类媒体机构让大模型参加了河南省的高考选拔,其中文科的最好得分为562分,理科的最好得分为469.5分,这个分数相当不错。仅仅过去了一年,大模型在文科和理科的测试分数上,总共提升了超过100分。

这些大型人工智能之所以在今年的山东省高考中展现出卓越水平,根本原因在于它们在逻辑思维与跨类型信息整合能力上不断进行技术创新和深度改进。这种技术进步,在包括某些系列模型以及豆包在内的新一代"考生"身上体现得最为突出。

今年三月,谷歌发布了二代升级版模型。该模型运用深度推理机制,在运算前进行多步分析。它的数学、科学及编程能力大幅增强,在多项测试中表现突出。此外,它善于掌握庞大数据,可应对融合文本、音频、影像、视频等多元信息的复杂课题。

该 o3 是当前最出色的推理工具,它能在回应生成前投入更多时间进行深度思考,并且首次将视觉元素整合到其推理过程中,借助辅助手段对用户提供的图片进行转换,从而实现诸如剪裁、缩放及旋转等基础图像操作,尤为关键的是,这些操作完全由自身完成,无需借助其他独立的图像处理模块。这表明,模型在处理复杂的数学、科学、编程问题时,展现出类似人类的逐步推理能力,同时能够解析图像,于各类图文题和综合性题目中运用更周全的感知与推演技巧。

豆包大模型半个月前公布过 1.6 版本的新进展,Seed-1.6 模型运用了多种模态整合的预训练方法,这个过程被划分为三个步骤,分别是进行纯文字的初步训练,实施多模态混合的持续学习,以及开展长距离信息关联的持续训练。

这增强了资料解读能力,增添了图像识别功能,能够分析图画、照片等内容,从而实现更周全的判断。此外,其可容纳多达 256K 的文本长度,有助于应对更为繁难的任务。

以高效预训练的 base 模型为出发点,团队在 Post- 阶段进行了深入研发,创造出融合了 VLM 多种功能的新模型 Seed1.6-,该模型能够借助更长的推理过程达成最佳分析表现,正是本次参加高考山东卷竞赛的参赛者。

Seed1.6- 训练环节融合了多阶段的参考自由文本与强化学习迭代优化,每一轮强化学习均以先前参考自由文本的结果为基础,在筛选参考自由文本候选时,通过多角度的模型评估来挑选出最佳回应。增加了优质学习资料的数量,涵盖数学、编程以及非特定类型内容,增强了模型处理复杂议题时的分析深度,并且在模型性能方面全面整合了视觉语言模型,赋予其明确的图像解析功能。

明年,我们还需要让大模型参加高考吗?

人工智能参与普通高等学校招生考试,已经持续多年引发广泛关注。当视觉感知与语言理解能力尚不完善之时,采用统一标准测试确实能够评估机器智能的发展程度。

正因为如此,每年「AI 赶考」都会促使人们探讨 AI 的能力范围、未来教育形态以及人类智慧的特殊性。讨论的焦点慢慢从「能否解答题目」转变为「能完成多高难度任务」、「AI 是否能领会深层含义和情绪」。

这一反复出现的主题在 2025 年实现了关键性突破,先进的人工智能系统在解读文字内容、创造文本、综合不同类型信息以及逻辑分析等方面取得了长足的发展。机器现在能够把握问题深层的内在联系和核心观念,也能领会特定学术范畴的视觉材料,其产生的回应也展现出更为丰富的内涵。

这种发展毫无疑问在高考分数上有所体现,去年只是勉强达到一本分数线,到了 2025 年就要力争考进清华北大,至少也要确保进入985高校,大模型在短短一年内就实现了从普通本科院校到顶尖名校的跨越,这也让我们意识到,高考这个曾经用来评估大模型认知能力的标尺,似乎已经失去了原有的难度。

未来,诸如豆包之类的大型模型,或许不再需要承担制作高考题目的任务,可以考虑跳出标准化考试的范畴,更加深入地参与科研探索、艺术构思、程序设计等能够切实提升生产力的行业,协助处理现实社会里那些缺乏固定答案的棘手问题,从而减少人类的机械性工作。

我们确信,过不了多久,大型模型将在众多领域展现出专业能力。

相关推荐

猜你喜欢

大家正在看

换一换