方块糖的工坊
方块糖的工坊

大模型挑战小学一年级数学题

背景

今天辅导女儿(刚上一年级)数学作业的时候遇到这么一道题,我想了30秒竟然没找到任何规律,突发奇想试试AI能不能做出来,试了一圈,结果大跌眼镜~

https://cdn.guitang.fun/Blog/little-girl_image.png

我这里先给出答案:

https://cdn.guitang.fun/Blog/little-girl_a457c456c905ba4e1b5ae293994f467.jpg

实战

chatgpt

首先,有请最受期待的chatgpt的选手

https://cdn.guitang.fun/Blog/little-girl_e45eb2fbe8f094e100ba596d9ba589d.jpg

为什么是英文?为什么△代表2?为什么突然就代表5?槽点太多,这波我打0分。


Gemini

第二位是Gemini选手:

https://cdn.guitang.fun/Blog/little-girl_a272616f783dacd2363656319e55608.jpg

说了一堆,都是废话,连图像都没看明白,0分。


智谱清言

第三位,请出我最喜欢用的国产模型,智谱清言:

https://cdn.guitang.fun/Blog/little-girl_1d801a3d74710a9c99540fd778f50f1.jpg

首先,内容识别错了,但如果只看前5列的话,确实能自圆其说,但为什么最后15-7=7啊,也是0分。


Kimi

第四位,是国产的Kimi:

https://cdn.guitang.fun/Blog/little-girl_0cbb9e5c6bd9182894c400b1949aa50.jpg

和Gemini基本一样,也是没识别出图片内容,答案也是乱答一通,0分!


讯飞星火

第五位,国产的讯飞星火:

https://cdn.guitang.fun/Blog/little-girl_2093883a86c1670fdf4681f4d172d91.jpg

还是一样,没识别出图片内容,*还转义失败了,瞎编了个答案,同样也是0分。


降低难度

到这里,我做出让步,我用文字的形式告诉他们这些数字的具体位置,刨除图像识别的影响,看它们能不能做出来,这是我的问题:

1 2 3 4 5 1 2
3 4 5 1 2 3 3
2 x y z 5 4 4
1 5 4 3 2 1 5
根据我给出的数字,找出规律,算出x、y、z的和是多少

我直接放图吧,大家自己感受吧,由上到下依次是chatgpt、gemini、智谱清言、kimi和星火

https://cdn.guitang.fun/Blog/little-girl_f63d1f901e6f9dc327c3a74842ddfc8.jpg

https://cdn.guitang.fun/Blog/little-girl_169468209c08ee087beb694d0b9068a.jpg

https://cdn.guitang.fun/Blog/little-girl_eeb8bc5372e125e96ccc8ed00be6e8f.jpg

https://cdn.guitang.fun/Blog/little-girl_image%201.png

https://cdn.guitang.fun/Blog/little-girl_image%202.png

主打的就是一通胡说八道。


OpenAI o1

OpenAI最近不是刚发布了最新o1模型嘛,主打就是逻辑推理能力,也拉出来溜溜

https://cdn.guitang.fun/Blog/little-girl_image%203.png

然后不出意外也翻车了~

总结

一道小学一年级奥数题竟然难住了当红众多AI大模型,充分暴露了当前阶段的语言模型本质上还是个“复读机”,其逻辑推理能力甚至不如小学生,所以寄希望这条路实现AGI,真的可行吗?

发表回复

textsms
account_circle
email

方块糖的工坊

大模型挑战小学一年级数学题
今天辅导女儿(刚上一年级)数学作业的时候遇到这么一道题,我想了30秒竟然没找到任何规律,突发奇想试试AI能不能做出来,试了一圈,结果大跌眼镜~
扫描二维码继续阅读
2024-09-17