• 我的订阅
  • 科技

9.11大还是9.9大?为什么一道小学数学题 难倒了大多数AI?

类别:科技 发布时间:2024-07-18 08:31:00 来源:杭州网

9.11和9.9哪个更大?一道小学生都会的数学题,却难倒了一众AI大模型。昨天,“大模型测不出9.11和9.9哪个大”还登上了微博热搜。

这个难倒大多数AI大模型的数学题,其实来自于最近热播的《歌手》。

7月13日,在最新一期《歌手》公布的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%。这个得票数统计引发了一些网友对排名的质疑。

有网友认为13.11%大于13.8%,因此,香缇莫的得票率比孙楠高。

随后,关于13.8%和13.11%大小比较,一度成了网络上的热门话题。当时也有网友提出,“实在不行问问AI”。

有趣的是,这道题AI大模型也不太会。有媒体记者测试了12个国内外主流大模型,其中,一半模型答错了,认为9.11大于9.9。橙柿互动记者们也好奇地提问了几家AI大模型。结果发现,有不少AI模型回答是错的,还有一些AI在答题时不太稳定。

比如昨天下午,当我的两位同事向kimi提出这个问题时,其中一位同事的kimi答案时对时错,且反应“冷淡”。而另外一位同事的kimi举例分析得十分在理,直观且很好理解。同样的问题询问了通义千问、文心一言、讯飞星火等AI模型,大部分AI回答正确并给出了详细的答题过程。

为什么一道小学数学题难倒了部分AI大模型?

昨天上午,通义实验室产品经理王晓明看到这则热搜和网友们的评论,第一反应是并不觉得奇怪,更像是网友玩的一个“花活”。王晓明说,大语言模型虽然在语言和文本类型的任务里能超越人类普通平均水平,但对于数学、物理这种强调逻辑性的任务短板比较明显。

也就是说,现在的大模型其实更像一个文科生。

“简单来说,大模型不会把这个问题像人类一样,当作一个比大小的题目。”

王晓明说,大模型的本质是通过提示词,也就是提的问题,对下一个词进行预测,而不是做算术计算。这个跟平时的训练数据和大模型配置有关。

所以在处理“9.11和9.9哪个更大”这样的对话场景时,大模型不像人类,不会天然地把这个问题视作算数比大小的题目,可能会把这当成日期“9月11日”,拿9.11里面的11和9.9里面的9做对比。“在这种情况下,它就会认为11比9更大。这是由大模型处理的流程或机制决定的。有些大模型对指令识别得更好,答对概率就比较高。我们内部测试发现,通义绝大部分情况能答对。”

还有不少网友发现,调整提示词的顺序,大模型给出的答案准确率也不一致。比如把提示词从“9.11和9.9谁更大”换成“哪个更大:9.11和9.9”,前一种情况几乎全军覆没,而后一种情况大部分大模型都能答对。

在王晓明看来,这是因为大多数模型对于后一句提示词能更快更准确地理解这是一个比大小的问题,而不是比日期或者其他数字场景,这样预测的概率就会大大提高。

“另外,这跟模型本身预置的数理逻辑、训练数据以及配置都有关系。第二种情况下,更接近于模型之前训练阶段遇到的场景,所以答对的概率比较高。”

王晓明说,使用大模型相当于一个调教的过程。虽然预测本身带有随机性,存在成功的概率,也有失败的概率。但大模型根据他的回答及你的订正去生成一个新的回答,订正的过程会作为下一轮的输入。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-18 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型“翻车”小学题?
13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉
2024-07-18 16:39:00
学而思携九章大模型、学而思学习机亮相世界人工智能大会
...九章随时问”的拍题讲题能力。当用手机拍摄一道四年级数学题,它并不直接给出答案,而是分析了题目考察的知识点和形式,再引导用户进行一步步思考,在启发下自主解决问题。这一明显区别于
2024-07-04 23:00:00
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问
2024-07-17 11:56:00
\\\
...。进入MathGPT首页,有小学、初中与高中三个不同程度的数学题难度。其中题目类型包含了找规律、逻辑分析、运算求解、随机现象、表达论述等。用户可以选择不同类型的数学题目进行针
2023-08-28 15:17:00
好未来自研数学大模型MathGPT开启内测 用AI实现因材施教
...造的大模型。用户使用MathGPT时,用文字或图片方式上传数学题,即可得到对话式的解答反馈,也可以通过“随机来一题”的按钮,随机生成数学题目并由系统给出解答。目前,MathG
2023-08-24 19:02:00
...大模型的数学水平,赵海笑道:“很多人没考过GRE,其实GRE的数学题难度和中国小学数学题差不多。GPT-4的数学水平不会很高
2023-03-16 09:23:00
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...试直接用图片进行提问,可以让我们输入一些比较抽象的数学题,比如一道来自小学四年级的奥林匹克竞赛题:还是惯例先看看国产AI的回答: kimi文心一言两个国产AI分别给出了A和
2024-12-11 20:12:00
...的解题技巧,才能为学生在今后的学习中赢得先机。一道数学题,往往具有多种解题方法,在教学中,教师不能只教授一种解题技巧或思维,要引导开发学生好奇的心理,让学生理解掌握数学中的多
2023-07-28 06:39:00
...们这群核心成员里很多人都是理科生,有时候突然扔一个数学题到群里就开始一起解答”。这个诞生于PC贴吧时代的兴趣社区,在互联网浪潮中走过了20年。吧主公孙闬透露,创建人当年还是小
2024-09-08 08:18:00
更多关于科技的资讯: