• 我的订阅
  • 科技

9.11大还是9.9大?为什么一道小学数学题 难倒了大多数AI?

类别:科技 发布时间:2024-07-18 08:31:00 来源:杭州网

9.11和9.9哪个更大?一道小学生都会的数学题,却难倒了一众AI大模型。昨天,“大模型测不出9.11和9.9哪个大”还登上了微博热搜。

这个难倒大多数AI大模型的数学题,其实来自于最近热播的《歌手》。

7月13日,在最新一期《歌手》公布的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%。这个得票数统计引发了一些网友对排名的质疑。

有网友认为13.11%大于13.8%,因此,香缇莫的得票率比孙楠高。

随后,关于13.8%和13.11%大小比较,一度成了网络上的热门话题。当时也有网友提出,“实在不行问问AI”。

有趣的是,这道题AI大模型也不太会。有媒体记者测试了12个国内外主流大模型,其中,一半模型答错了,认为9.11大于9.9。橙柿互动记者们也好奇地提问了几家AI大模型。结果发现,有不少AI模型回答是错的,还有一些AI在答题时不太稳定。

比如昨天下午,当我的两位同事向kimi提出这个问题时,其中一位同事的kimi答案时对时错,且反应“冷淡”。而另外一位同事的kimi举例分析得十分在理,直观且很好理解。同样的问题询问了通义千问、文心一言、讯飞星火等AI模型,大部分AI回答正确并给出了详细的答题过程。

为什么一道小学数学题难倒了部分AI大模型?

昨天上午,通义实验室产品经理王晓明看到这则热搜和网友们的评论,第一反应是并不觉得奇怪,更像是网友玩的一个“花活”。王晓明说,大语言模型虽然在语言和文本类型的任务里能超越人类普通平均水平,但对于数学、物理这种强调逻辑性的任务短板比较明显。

也就是说,现在的大模型其实更像一个文科生。

“简单来说,大模型不会把这个问题像人类一样,当作一个比大小的题目。”

王晓明说,大模型的本质是通过提示词,也就是提的问题,对下一个词进行预测,而不是做算术计算。这个跟平时的训练数据和大模型配置有关。

所以在处理“9.11和9.9哪个更大”这样的对话场景时,大模型不像人类,不会天然地把这个问题视作算数比大小的题目,可能会把这当成日期“9月11日”,拿9.11里面的11和9.9里面的9做对比。“在这种情况下,它就会认为11比9更大。这是由大模型处理的流程或机制决定的。有些大模型对指令识别得更好,答对概率就比较高。我们内部测试发现,通义绝大部分情况能答对。”

还有不少网友发现,调整提示词的顺序,大模型给出的答案准确率也不一致。比如把提示词从“9.11和9.9谁更大”换成“哪个更大:9.11和9.9”,前一种情况几乎全军覆没,而后一种情况大部分大模型都能答对。

在王晓明看来,这是因为大多数模型对于后一句提示词能更快更准确地理解这是一个比大小的问题,而不是比日期或者其他数字场景,这样预测的概率就会大大提高。

“另外,这跟模型本身预置的数理逻辑、训练数据以及配置都有关系。第二种情况下,更接近于模型之前训练阶段遇到的场景,所以答对的概率比较高。”

王晓明说,使用大模型相当于一个调教的过程。虽然预测本身带有随机性,存在成功的概率,也有失败的概率。但大模型根据他的回答及你的订正去生成一个新的回答,订正的过程会作为下一轮的输入。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-18 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型“翻车”小学题?
13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉
2024-07-18 16:39:00
学而思携九章大模型、学而思学习机亮相世界人工智能大会
...九章随时问”的拍题讲题能力。当用手机拍摄一道四年级数学题,它并不直接给出答案,而是分析了题目考察的知识点和形式,再引导用户进行一步步思考,在启发下自主解决问题。这一明显区别于
2024-07-04 23:00:00
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问
2024-07-17 11:56:00
让马斯克让出C位的吴宇怀,在杭州念书时是这样子的
...本都会抽时间回母校看看,还常常会问数学老师:你们出数学题的时候是怎么思考的?2015年,建兰中学举办20周年校庆启动仪式,正巧在杭州的吴宇怀欣然接受母校的邀请,作为优秀学生代
2025-02-22 08:29:00
\
...。进入MathGPT首页,有小学、初中与高中三个不同程度的数学题难度。其中题目类型包含了找规律、逻辑分析、运算求解、随机现象、表达论述等。用户可以选择不同类型的数学题目进行针
2023-08-28 15:17:00
好未来自研数学大模型MathGPT开启内测 用AI实现因材施教
...造的大模型。用户使用MathGPT时,用文字或图片方式上传数学题,即可得到对话式的解答反馈,也可以通过“随机来一题”的按钮,随机生成数学题目并由系统给出解答。目前,MathG
2023-08-24 19:02:00
...大模型的数学水平,赵海笑道:“很多人没考过GRE,其实GRE的数学题难度和中国小学数学题差不多。GPT-4的数学水平不会很高
2023-03-16 09:23:00
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...试直接用图片进行提问,可以让我们输入一些比较抽象的数学题,比如一道来自小学四年级的奥林匹克竞赛题:还是惯例先看看国产AI的回答: kimi文心一言两个国产AI分别给出了A和
2024-12-11 20:12:00
...的解题技巧,才能为学生在今后的学习中赢得先机。一道数学题,往往具有多种解题方法,在教学中,教师不能只教授一种解题技巧或思维,要引导开发学生好奇的心理,让学生理解掌握数学中的多
2023-07-28 06:39:00
更多关于科技的资讯:
不知从何时起,“技能交换”的风潮悄然席卷青年社交圈。“会国画书法,想换滑板教学”“擅长爵士舞,求学基础摄影”……在某社交平台上
2025-08-20 19:42:00
□南京日报/紫金山新闻记者卫凌云 通讯员建萱江岛宣不需要司机和快递员,只需通过手机下单,无人物流车便可上门进行商品配送
2025-08-20 07:42:00
人在江宁,“飞”阅玄武湖
第九届未来网络发展大会探展人在江宁,“飞”阅玄武湖□南京日报/紫金山新闻记者张安琪实习生饶嘉萱选择点位玄武湖、打开无人机机箱
2025-08-20 07:42:00
京津冀共推新能源汽车、低空装备产业协同发展提高科技成果转化和产业化水平河北日报讯(记者米彦泽)8月12日,京津冀新能源和智能网联汽车
2025-08-19 08:31:00
解码“小镇冠军”丨广饶县大王镇:一纸风帆闯世界的底气
大众网记者 孙淑娟 东营报道世界造纸,中国领航;中国造纸,广饶担当。在黄河三角洲的沃土上,广饶县依托深厚的产业积淀,崛起为全国举足轻重的高端造纸产业基地
2025-08-19 08:51:00
当我们怀念“上行时期的美”,是在怀念一种向上的状态
最近,一个词在网上悄然走红 ——“经济上行的美”。当全球经济增速放缓,这个词的流行,本质上是大众借由对 “黄金年代” 的集体记忆
2025-08-19 09:03:00
马可波罗IPO上市注册:创新驱动新引擎,引领高质量发展趋势
在日新月异的今天,科技创新已成为推动各行各业发展的关键力量。陶瓷行业,这一承载着千年文明与历史沉淀的传统产业,在新时代的浪潮中
2025-08-19 09:51:00
为提升从业人员的专业素养与服务水平,中国人寿深州支公司开展销售人员培训活动,此次培训特邀公司经验丰富的业务精英与兄弟县市优秀讲师
2025-08-19 09:58:00
为深化全员对代理保险产品的认知,提升精准营销能力,加速拓展市场份额,8月8日下午,滦州农商银行召开2025年下半年代理保险业务专题培训会
2025-08-19 10:04:00
从“好内容”到“好转化”,巨量引擎小游戏迈入“精耕时代”
随着供需两端提速,以及AI的全面入局,一个小游戏崭新的增长时代正在展开。2025 ChinaJoy期间,由中国音像与数字出版协会和上海市虹口区人民政府联合主办的「2025 CIGDC 中国国际游戏开发者大会」在沪举行
2025-08-19 10:52:00
小猿学练机独家引进海尼曼FPC AI+全球顶级资源打造英语学习新范式
近日,教育科技领军品牌小猿学练机在北京举行“小猿学练机×海尼曼”战略合作发布会,宣布学习平板领域独家引进全球知名的 “海尼曼 FPC ”分级阅读体系
2025-08-19 10:52:00
WRC 2025开普勒K2大黄蜂实力吸睛,商业化进程继续加速
2025年8月8日至12日,2025世界机器人大会(WRC 2025)在北京经济技术开发区北人亦创国际会展中心举行。围绕 "让机器人更智慧
2025-08-19 10:52:00
韩国农水产食品流通公社助力姚琛“万里挑一 特别派对”
-以美食为桥深化中韩文化交流-2025年8月9日,内地人气歌手姚琛“万里挑一 特别派对”在北京市昌平区丘比特露营营地火热开唱
2025-08-19 10:52:00
近年来,伴随着出海浪潮不断升温,中国商品正加速迈入高质量、品牌化发展的新阶段。面对出海新趋势,近日,由中国(宁波)跨境电子商务综合试验区
2025-08-19 10:59:00
本报讯 (记者 解 磊)近日,记者从中国塑料加工工业协会(以下简称“中国塑协”)获悉,干法锂电池隔膜骨干生产企业负责人闭门座谈会在深圳召开
2025-08-19 11:03:00