大模型挑战小学一年级数学题

2,947次阅读

共计 691 个字符，预计需要花费 2 分钟才能阅读完成。

背景

今天辅导女儿（刚上一年级）数学作业的时候遇到这么一道题，我想了30秒竟然没找到任何规律，突发奇想试试AI能不能做出来，试了一圈，结果大跌眼镜~

我这里先给出答案：

首先，有请最受期待的chatgpt的选手

为什么是英文？为什么△代表2？为什么※突然就代表5？槽点太多，这波我打0分。

第二位是Gemini选手：

说了一堆，都是废话，连图像都没看明白，0分。

第三位，请出我最喜欢用的国产模型，智谱清言：

首先，内容识别错了，但如果只看前5列的话，确实能自圆其说，但为什么最后15-7=7啊，也是0分。

第四位，是国产的Kimi：

和Gemini基本一样，也是没识别出图片内容，答案也是乱答一通，0分！

第五位，国产的讯飞星火：

还是一样，没识别出图片内容，*还转义失败了，瞎编了个答案，同样也是0分。

到这里，我做出让步，我用文字的形式告诉他们这些数字的具体位置，刨除图像识别的影响，看它们能不能做出来，这是我的问题：

1 2 3 4 5 1 2
3 4 5 1 2 3 3
2 x y z 5 4 4
1 5 4 3 2 1 5
根据我给出的数字，找出规律，算出x、y、z的和是多少

我直接放图吧，大家自己感受吧，由上到下依次是chatgpt、gemini、智谱清言、kimi和星火

主打的就是一通胡说八道。

OpenAI最近不是刚发布了最新o1模型嘛，主打就是逻辑推理能力，也拉出来溜溜

然后不出意外也翻车了~

一道小学一年级奥数题竟然难住了当红众多AI大模型，充分暴露了当前阶段的语言模型本质上还是个“复读机”，其逻辑推理能力甚至不如小学生，所以寄希望这条路实现AGI，真的可行吗？

正文完

发表至： AI

2024-09-17

0

使用Vercel托管Python后端API