背景
今天辅导女儿(刚上一年级)数学作业的时候遇到这么一道题,我想了30秒竟然没找到任何规律,突发奇想试试AI能不能做出来,试了一圈,结果大跌眼镜~
我这里先给出答案:
实战
chatgpt
首先,有请最受期待的chatgpt的选手
为什么是英文?为什么△代表2?为什么※突然就代表5?槽点太多,这波我打0分。
Gemini
第二位是Gemini选手:
说了一堆,都是废话,连图像都没看明白,0分。
智谱清言
第三位,请出我最喜欢用的国产模型,智谱清言:
首先,内容识别错了,但如果只看前5列的话,确实能自圆其说,但为什么最后15-7=7啊,也是0分。
Kimi
第四位,是国产的Kimi:
和Gemini基本一样,也是没识别出图片内容,答案也是乱答一通,0分!
讯飞星火
第五位,国产的讯飞星火:
还是一样,没识别出图片内容,*还转义失败了,瞎编了个答案,同样也是0分。
降低难度
到这里,我做出让步,我用文字的形式告诉他们这些数字的具体位置,刨除图像识别的影响,看它们能不能做出来,这是我的问题:
1 2 3 4 5 1 2
3 4 5 1 2 3 3
2 x y z 5 4 4
1 5 4 3 2 1 5
根据我给出的数字,找出规律,算出x、y、z的和是多少
我直接放图吧,大家自己感受吧,由上到下依次是chatgpt、gemini、智谱清言、kimi和星火
主打的就是一通胡说八道。
OpenAI o1
OpenAI最近不是刚发布了最新o1模型嘛,主打就是逻辑推理能力,也拉出来溜溜
然后不出意外也翻车了~
总结
一道小学一年级奥数题竟然难住了当红众多AI大模型,充分暴露了当前阶段的语言模型本质上还是个“复读机”,其逻辑推理能力甚至不如小学生,所以寄希望这条路实现AGI,真的可行吗?
发表回复