让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。
一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!!
和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。
先来瞧一瞧这份「大模型成绩单」:
令人惊讶的是,在这次模拟考试中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格的情况,只有智谱最新发布的 GLM-4-0520 模型超过了及格线。
对大模型产品来说,高考语文作文可以直接测试它们的创造性写作技巧,包括构思、组织和表达观点的能力。
而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理,这要求它具备深厚的数学知识基础。同时,逻辑推理能力是解答数学题目的关键,大模型需要通过严密的逻辑推导来解决问题。
具体测试环节:
我们将评测的重点放在了高考数学的前 14 个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为 73 分。在测试时,我们将题目直接输入产品,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。
分数计算方法依照高考真实判分原则:
- 单选题 8 道,每道 5 分,选项正确计分,错误不得分;
- 多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;
- 填空题,3 道,每道 5 分,填空正确计分,错误不得分。
图|8 个模型对 14 道数学题的回答结果,绿色为正确、红色为错误、黄色为部分正确
具体而言,在满分 73 分、及格线为 43.8 分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)。
多说一句,每年的第 8 道单选题往往是高考数学卷中最难的一道题,被测试的大模型都 “全军覆灭” 了。
完整测试结果如下:
单选题一
(6个模型回答正确,1个回答错误)
GPT-4o:正确
通义千问 2.5:正确
GLM-4-0520:正确
智谱清言:正确
豆包:正确
文心 4:错误
百川 4:正确
单选题二
(3个模型回答正确,4个回答错误)
GPT-4o:错误
通义千问 2.5:正确
GLM-4-0520:正确
智谱清言:正确
豆包:错误
文心 4:错误
百川 4:错误
单选题三
(全部回答正确)
GPT-4o:正确
通义千问 2.5:正确
GLM-4-0520:正确
智谱清言:正确
豆包:正确
文心 4:正确
百川 4:正确
单选题四
(全部回答正确)
GPT-4o:正确
通义千问 2.5:正确
GLM-4-0520:正确
智谱清言:正确
豆包:正确
文心 4:正确
百川 4:正确
单选题五
(6个模型回答正确,一个无响应)
GPT-4o:正确
通义千问 2.5:无响应,最终提示系统超时
GLM-4-0520:正确
智谱清言:正确
豆包:正确
文心 4:正确
百川 4:正确
单选题六
(6个模型回答正确,一个回答错误)
GPT-4o:错误
通义千问:正确
GLM-4-0520:正确
智谱清言:正确
豆包:正确
文心 4:正确
百川 4:正确
单选题七
(6个模型回答正确,一个回答错误)
GPT-4o:正确
通义千问 2.5:错误
GLM-4-0520:正确
智谱清言:正确
豆包:正确
文心 4:正确
百川 4:正确
单选题八
(7个模型无一得出正确答案)
GPT-4o:错误
通义千问2.5:错误
GLM-4-0520:错误
智谱清言:错误
豆包:错误
文心 4:错误
百川 4:错误
多选题一
(3个回答正确,2个部分正确,2个错误)
GPT-4o:正确
通义千问 2.5:错误
GLM-4-0520:正确
智谱清言:部分正确
豆包:正确
文心 4:部分正确
百川 4:错误
多选题二
(*2个模型回答部分正确,5个回答错误*)
GPT-4o:错误
通义千问 2.5:错误
GLM-4-0520:部分正确
智谱清言:部分正确
豆包:错误
文心 4:错误
百川 4:错误
多选题三
(5个模型回答部分正确,2个回答错误)
GPT-4o:错误
通义千问 2.5:部分正确
GLM-4-0520:部分正确
智谱清言:部分正确
豆包:部分正确
文心 4:部分正确
百川 4:错误
填空题一
(*2个模型回答正确,5个回答错误*)
GPT-4o:正确
通义千问 2.5:错误
GLM-4-0520:正确
智谱清言:错误
豆包:错误
文心 4:错误
百川 4:错误
填空题二
(1个模型回答正确,6个回答错误)
GPT-4o:错误
通义千问 2.5:错误
GLM-4-0520:正确
智谱清言:错误
豆包:错误
文心 4:错误
百川 4:错误
填空题三
(*2个模型回答正确,5个回答错误*)
GPT-4o:正确
通义千问 2.5:错误
GLM-4-0520:正确
智谱清言:错误
豆包:错误
文心 4:错误
百川 4:错误
如何学习大模型
现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。
作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。
我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。
一、AGI大模型系统学习路线
很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。
二、AI大模型视频教程
三、AI大模型各大学习书籍
四、AI大模型各大场景实战案例
五、结束语
学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。
再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。
因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。