金磊 发自 凹非寺
量子位 | 公众号 QbitAI
继国产大模型挑战高考作文之后,是时候再战一下高考数学了。
数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2Fd4312a5997efcd1eaf3403e13e7f4b7c.png)
那么现在,是时候考验国产大模型们的数学能力了。
有请“选手们”登场——
Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F99ef231b4536322499226a31725f6976.jpeg)
国产大模型 vs 高考数学选择题
根据数学题目类型的不同,我们先来小试牛刀一下选择题。
测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:
查看题目,给出第1题到第8题的答案。
接下来,我们就来一同看下国产大模型们的表现。
Kimi
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2Fc174bb87266fca8323f0720856747dde.png)
通义千问
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F8b0c70e5837b134f890cb82e13aae92d.jpeg)
豆包
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F8c77e406e936f50ed66d256e1f04ca46.jpeg)
智谱清言
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2Fc911acee424e848686a503cd51d58e2d.png)
百小应
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F343155ff990205464d7773d7697ebf57.jpeg)
讯飞星火
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F8bae69c90cbe4df5fa65d9529f0cc165.jpeg)
商量
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F62e956f8638bc273126bc46e8464ebe3.png)
腾讯元宝
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2Ff738d9cad8c6bd8b13d5e1d73ad1c840.jpeg)
海螺AI
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2Fd5e7af584a42319630b9e6556cfca29c.jpeg)
万知
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2Fd1bee372618f8f84fed33b7d13e210df.jpeg)
不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。
(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)
那么我们最后来看下“踢馆选手”——GPT-4o。
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F373c98d63a3adaf01a161f67350ca4be.png)
国产大模型 vs 数学大题
鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:
设n为正整数,数列 ( a1, a_2, cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 项可被平均分为 m 组,且每组的 4 个数都能构成等差数列,则称数列 ( a_1, a_2, cdots, a{4m+2} ) 是 (i, j) – 可分数列。
(1) 写出所有的 (i, j) (1 ≤ i < j ≤ 6),使得数列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) – 可分数列;
(2) 当 ( m = 3 ) 时,证明:数列 ( a1, a_2, cdots, a{13} ) 是 (2, 13) – 可分数列;
(3) 设 ( a1, a_2, cdots, a{4m+2} ) 是 (i, j) – 可分数列。记数列 ( a1, a_2, cdots, a{4m+2} ) 中任取两个数和 i (i < j),则数列是 (i, j) – 可分数列的概率为 ( p_n ),证明:( p_n geq frac{1}{8} )。
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F93b2db1bb96dba6b1575505fb6af1e4e.jpeg)
接下来,我们再来看下国产大模型们的表现。
Kimi
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F47067156e8e011be77ec9d89ec2d70f2.jpeg)
通义千问
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2Fda7d30a4f05f5277a4e19636006b1dcd.jpeg)
文心一言
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F90a91bdf18eba188d04b9acc3864ca4b.jpeg)
豆包
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F3d8bacbcaa1def443e971be2178bee57.png)
智谱清言
![12个国产大模型大战高考数学,意外炸出个大bug 12个国产大模型大战高考数学,意外炸出个大bug](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F0d52553d607a13ad5fdc076c6f3c575b.png)
百小应
讯飞星火
商量
腾讯元宝
天工
海螺AI
万知
最后,还是有请“踢馆选手”——GPT-4o。
那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?
最后,关于AI智能助手,这里也有一份最新用户数据分析报告供你参考:
https://mp.weixin.qq.com/s/sYxbvown5qLBnEs7zIR6Bg
![post-qrcode](https://aigc.luomor.com/wp-content/uploads/2023/03/qrcode_for_gh_ada6dea0c7e9_258.jpeg)