AI助力高考数学大比拼：豆包元宝夺魁，OpenAI o3失利揭秘 – realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

人工智能的“考海”沉浮：当大模型遇上高考数学新一卷

又是一年盛夏，无数考生在考场内挥洒汗水，与那些刁钻的数学题缠斗。而在考场之外，一场不设限的较量也在悄然进行——这一次，“考生”不是血肉之躯的学生，而是当下最受瞩目的人工智能大模型。它们被投喂了新鲜出炉的高考数学新课标Ⅰ卷的客观题，试图证明自己在逻辑推理和问题解决上的能力。结果如何？出人意料又似乎在情理之中，有的模型大放异彩，有的则遭遇了“滑铁卢”，特别是备受关注的OpenAI o3模型，竟然意外垫底，令人大跌眼镜。

这是一场没有硝烟的测试，却直观地展现了当前大模型在面对严谨、需要层层推理的数学问题时的真实水平。不同于只需要流畅表达和一定逻辑结构的作文题，数学题对准确性和逻辑链的要求极为苛刻，一步错，可能步步皆错。这恰好是检验大模型核心推理能力的一块绝佳试金石。

参赛的六位“选手”背景各异，代表了当前国内外大模型领域的佼佼者：来自字节跳动的“豆包”、深度求索的“DeepSeek”、阿里巴巴的“通义”、腾讯的“元宝”（T1）、百度的“文心X1 Turbo”，以及作为“踢馆者”的OpenAI“o3”。测试选取了新课标Ⅰ卷中的14道客观题，总分73分，包括8道单选题、3道多选题和3道填空题。为了保证公平，测试过程严格：将题目截图直接投喂，不进行任何System Prompt引导，不开启联网搜索，每个模型只有一次答题机会。参考答案由多位数学专家核对，力求准确。

“学霸”与“偏科生”：成绩单上的乾坤

测试结果如同扔进平静湖面的一块巨石，激起了层层涟漪。国产大模型表现抢眼，“豆包”和“元宝”以68分的成绩并列第一，展现了强大的竞争力。紧随其后的是“DeepSeek”和“通义”，分别获得了63分和62分，表现也可圈可点。然而，“文心X1 Turbo”的得分仅为51分，正确率勉强过半，似乎在多选题和填空题上频繁失误，显得有些“偏科”。最令人惊讶的莫过于OpenAI的“o3”，仅仅拿到34分，正确率不足五成，与榜首的差距近乎一半，惨遭垫底。

这样的分数差异，并非简单的数字对比，其背后反映的是不同大模型在处理复杂数学问题时的能力壁垒。豆包和元宝能在竞争中脱颖而出，说明它们在理解题意、调用数学知识和进行逻辑推理方面做得比较到位。虽然它们也在某些题目上失分，例如都在第6道单选题上栽了跟头，但这并不影响它们整体的优势地位。而DeepSeek和通义的成绩则显示出它们具备一定的数学解题能力，但在面对个别难题时可能会出现偏差。文心X1 Turbo的失误则可能指向其在多项选择和开放式填空题的处理上存在短板，这可能与其训练数据、模型架构或推理机制有关。

而OpenAI o3的低分则引发了广泛讨论。作为国际顶尖AI实验室的作品，o3在其他领域的表现通常备受赞誉，但在中国的高考数学面前却显得“水土不服”。有分析认为，这可能与训练数据有关，中国高考数学有其独特的命题风格和考查侧重点，如果模型的训练数据未能充分覆盖这类题型，就可能导致表现不佳。此外，也有观点猜测o3在某些情况下可能存在“降智”现象，即在特定任务或数据输入下，其表现反而不如预期。当然，这只是猜测，更本质的原因或许在于不同模型在处理中文数学语料、理解复杂句式以及构建严密逻辑链条上的差异。例如，文章提到o3在多选题上似乎还没有适应国内的“多选套路”，常常做成单选，这直接导致了得分的损失。

题目特性与模型挑战：数学为何成为“照妖镜”

为何相比于作文，高考数学更能成为大模型的“照妖镜”？原因在于数学对逻辑推理的极致要求。高考作文虽然需要语言表达和结构组织能力，但允许一定的模糊性和创造性，模型的“胡编乱造”在一定程度上可以蒙混过关。而数学题则是一个环环相扣的逻辑链条，每一个步骤都需要精确无误。从理解题意、提取已知条件，到选择合适的数学公式和方法，再到进行繁琐的计算和推理，任何一个环节的错误都会导致最终结果的偏差。

文章提到的测试中，使用了2025年新课标Ⅰ卷的客观题。这些题目虽然不是整张试卷中最难的部分（通常压轴大题更具挑战性），但它们涵盖了选择、多选和填空三种题型，对模型的理解能力、分析能力和计算能力都有所考验。特别是多选题，要求模型能识别所有正确选项，漏选或错选都会扣分，这比单选题的判断难度更大。填空题则要求模型能直接给出最终的数值或表达式，没有任何选项提示，对计算和结果的准确性要求极高。

一些模型在测试中遇到的问题也暴露了当前大模型技术的局限性。例如，文章提到DeepSeek在识别图片格式的题目时出现不少错误，这说明AI的图像识别和文字提取能力仍需提升，尤其是在处理复杂的数学符号和图形时。虽然测试方后来将图片转化为文本以保证公平，但在实际应用中，模型的图像识别能力是不可或缺的一环。此外，一些模型在解题过程中出现的逻辑跳跃或计算错误，则直接反映了其推理能力的不足。文章中提到通义在某道题上虽然歪打正着选对了答案，但计算方法却是错误的，这也说明模型有时会“蒙对”答案，但这并不能代表其真正理解了题目的解法。

超越分数：测试的深层意义

这场大模型“决战”高考数学的测试，其意义远不止于一份简单的成绩单。它至少提供了以下几个方面的启示：

首先，国产大模型在特定任务上已经具备与国际顶尖模型一较高下的能力，甚至在某些方面展现出优势。豆包和元宝的并列第一，是对国内AI技术发展的一个积极肯定。这表明在针对中文语境和特定考试体系进行优化后，国产模型能够取得令人瞩目的成绩。

其次，测试暴露了当前大模型在数学推理和精确计算方面的挑战。即使是表现最好的模型，也未能拿到满分，说明距离真正掌握人类水平的数学能力还有一段距离。特别是在处理需要多步骤推理、复杂逻辑或对细节要求极高的题目时，模型仍然容易出错。

再次，不同模型在不同题型上表现差异显著，这提示我们在评估大模型能力时不能一概而论。有些模型可能擅长文本生成，有些可能在特定领域的知识问答上表现突出，但在数学这类需要严谨逻辑推理的任务上，其短板可能会暴露出来。

最后，OpenAI o3的垫底并非意味着其全盘皆输，但它确实提醒我们，即便是国际领先的模型，也可能在特定文化和教育背景下的任务中遭遇挑战。这强调了AI的“在地化”重要性，针对不同地区、不同语言、不同考试体系进行优化，才能更好地满足当地用户的需求。

未来展望：AI与教育的深度融合

尽管当前大模型在高考数学面前仍有不足，但它们的进步速度令人惊叹。就在几年前，让AI挑战高考数学还是一个遥不可及的话题，而现在，它们已经能够解决相当一部分题目。未来，随着技术的不断迭代和优化，大模型在数学推理方面的能力有望进一步提升。

这对于教育领域无疑具有深远的意义。想象一下，未来的AI教育助手不仅能够解答学生的数学疑问，还能提供个性化的解题思路分析，指出学生在哪个环节容易出错，甚至可以根据学生的掌握情况生成定制化的练习题。AI甚至有可能辅助教师进行试卷分析，更精准地把握学生的薄弱环节。

然而，在憧憬未来的同时，我们也应保持清醒。AI在数学领域的应用仍然面临挑战，例如如何确保AI解答过程的透明度和可解释性，如何防止学生过度依赖AI而忽视了独立思考能力的培养，以及如何应对AI可能产生的“幻觉”或错误信息。

总而言之，6大模型决战高考数学新一卷的测试，是一次生动而真实的展示。它告诉我们，AI正在以前所未有的速度发展，并在复杂任务上取得了显著进展。但同时，它也清晰地指出了AI目前的局限性，特别是在需要严谨逻辑和精确推理的数学领域。豆包、元宝的领先令人欣喜，OpenAI o3的垫底则引人深思。这场测试不仅仅是一场AI的能力比拼，更是我们理解人工智能当前水平、预测未来走向以及思考如何更好地将AI应用于教育等领域的宝贵案例。数学的魅力在于其严谨与逻辑之美，而AI能否真正领悟并驾驭这种美，我们将拭目以待。

Related Articles