• 我的订阅
  • 科技

9.11大还是9.9大?为什么一道小学数学题 难倒了大多数AI?

类别:科技 发布时间:2024-07-18 08:31:00 来源:杭州网

9.11和9.9哪个更大?一道小学生都会的数学题,却难倒了一众AI大模型。昨天,“大模型测不出9.11和9.9哪个大”还登上了微博热搜。

这个难倒大多数AI大模型的数学题,其实来自于最近热播的《歌手》。

7月13日,在最新一期《歌手》公布的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%。这个得票数统计引发了一些网友对排名的质疑。

有网友认为13.11%大于13.8%,因此,香缇莫的得票率比孙楠高。

随后,关于13.8%和13.11%大小比较,一度成了网络上的热门话题。当时也有网友提出,“实在不行问问AI”。

有趣的是,这道题AI大模型也不太会。有媒体记者测试了12个国内外主流大模型,其中,一半模型答错了,认为9.11大于9.9。橙柿互动记者们也好奇地提问了几家AI大模型。结果发现,有不少AI模型回答是错的,还有一些AI在答题时不太稳定。

比如昨天下午,当我的两位同事向kimi提出这个问题时,其中一位同事的kimi答案时对时错,且反应“冷淡”。而另外一位同事的kimi举例分析得十分在理,直观且很好理解。同样的问题询问了通义千问、文心一言、讯飞星火等AI模型,大部分AI回答正确并给出了详细的答题过程。

为什么一道小学数学题难倒了部分AI大模型?

昨天上午,通义实验室产品经理王晓明看到这则热搜和网友们的评论,第一反应是并不觉得奇怪,更像是网友玩的一个“花活”。王晓明说,大语言模型虽然在语言和文本类型的任务里能超越人类普通平均水平,但对于数学、物理这种强调逻辑性的任务短板比较明显。

也就是说,现在的大模型其实更像一个文科生。

“简单来说,大模型不会把这个问题像人类一样,当作一个比大小的题目。”

王晓明说,大模型的本质是通过提示词,也就是提的问题,对下一个词进行预测,而不是做算术计算。这个跟平时的训练数据和大模型配置有关。

所以在处理“9.11和9.9哪个更大”这样的对话场景时,大模型不像人类,不会天然地把这个问题视作算数比大小的题目,可能会把这当成日期“9月11日”,拿9.11里面的11和9.9里面的9做对比。“在这种情况下,它就会认为11比9更大。这是由大模型处理的流程或机制决定的。有些大模型对指令识别得更好,答对概率就比较高。我们内部测试发现,通义绝大部分情况能答对。”

还有不少网友发现,调整提示词的顺序,大模型给出的答案准确率也不一致。比如把提示词从“9.11和9.9谁更大”换成“哪个更大:9.11和9.9”,前一种情况几乎全军覆没,而后一种情况大部分大模型都能答对。

在王晓明看来,这是因为大多数模型对于后一句提示词能更快更准确地理解这是一个比大小的问题,而不是比日期或者其他数字场景,这样预测的概率就会大大提高。

“另外,这跟模型本身预置的数理逻辑、训练数据以及配置都有关系。第二种情况下,更接近于模型之前训练阶段遇到的场景,所以答对的概率比较高。”

王晓明说,使用大模型相当于一个调教的过程。虽然预测本身带有随机性,存在成功的概率,也有失败的概率。但大模型根据他的回答及你的订正去生成一个新的回答,订正的过程会作为下一轮的输入。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-18 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型“翻车”小学题?
13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉
2024-07-18 16:39:00
学而思携九章大模型、学而思学习机亮相世界人工智能大会
...九章随时问”的拍题讲题能力。当用手机拍摄一道四年级数学题,它并不直接给出答案,而是分析了题目考察的知识点和形式,再引导用户进行一步步思考,在启发下自主解决问题。这一明显区别于
2024-07-04 23:00:00
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问
2024-07-17 11:56:00
让马斯克让出C位的吴宇怀,在杭州念书时是这样子的
...本都会抽时间回母校看看,还常常会问数学老师:你们出数学题的时候是怎么思考的?2015年,建兰中学举办20周年校庆启动仪式,正巧在杭州的吴宇怀欣然接受母校的邀请,作为优秀学生代
2025-02-22 08:29:00
\
...。进入MathGPT首页,有小学、初中与高中三个不同程度的数学题难度。其中题目类型包含了找规律、逻辑分析、运算求解、随机现象、表达论述等。用户可以选择不同类型的数学题目进行针
2023-08-28 15:17:00
好未来自研数学大模型MathGPT开启内测 用AI实现因材施教
...造的大模型。用户使用MathGPT时,用文字或图片方式上传数学题,即可得到对话式的解答反馈,也可以通过“随机来一题”的按钮,随机生成数学题目并由系统给出解答。目前,MathG
2023-08-24 19:02:00
...大模型的数学水平,赵海笑道:“很多人没考过GRE,其实GRE的数学题难度和中国小学数学题差不多。GPT-4的数学水平不会很高
2023-03-16 09:23:00
...的解题技巧,才能为学生在今后的学习中赢得先机。一道数学题,往往具有多种解题方法,在教学中,教师不能只教授一种解题技巧或思维,要引导开发学生好奇的心理,让学生理解掌握数学中的多
2023-07-28 06:39:00
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...试直接用图片进行提问,可以让我们输入一些比较抽象的数学题,比如一道来自小学四年级的奥林匹克竞赛题:还是惯例先看看国产AI的回答: kimi文心一言两个国产AI分别给出了A和
2024-12-11 20:12:00
更多关于科技的资讯:
邀用户亲测!双11买海尔空调,享政企双补贴
以往选购空调,用户大多只能在屏幕上对比参数,实际风感是否舒适、节能效果如何,往往要等到安装使用后才知晓。今年双11,海尔空调带来全新体验方式
2025-10-13 11:45:00
青春华章丨方寸之间,用“芯”绘就星图万里
华创微系列芯片产品化在即,保障天地“对话”,筑牢算力基石 方寸之间,用“芯”绘就星图万里□南京日报/紫金山新闻记者江芬芬编者按高质量发展是“十四五”乃至更长时期我国经济社会发展的主题
2025-10-13 08:05:00
宁企为能源发电站安装“智慧大脑”“一网统管”,巡检响应时间缩短一半,停机损失降低超30% □南京日报/紫金山新闻记者孙秉印通讯员麒轩“支路电流异常
2025-10-13 08:05:00
将税务服务从“送得对”到“传得开”、从“加急办”到“秒响应”、从“被动纠错”到“主动合规”……聚焦个体工商户办税缴费需求
2025-10-13 07:23:00
算力浪潮奔涌 夯实“数字底座”——河北以数字经济赋能高质量发展(一)在中国联通(怀来)大数据创新产业园的机房内,一排排机柜昼夜不息地嗡鸣
2025-10-13 08:00:00
双11重磅福利:88VIP点外卖5折,淘宝闪购1000万份免单等你抢!
淘宝闪购推出双11重磅福利:88VIP点外卖天天享五折,免单红包数量超1000万份!10月15日至11月14日,88VIP用户进入闪购频道
2025-10-12 05:27:00
这家宁企让足球邂逅时尚
本报记者 周京震 陆春花8月17日晚,“苏超”第9轮,南京迎战盐城。聚光灯下,南京队员战衣上那簇崭新的标识格外醒目——华瑞时尚
2025-10-12 05:27:00
这支“中国笔”,国内首款!
在常州经开区潞城街道江苏德尔福医疗器械有限公司的洁净工厂内工作人员正在忙碌地装配新型“电子笔”今年该企业三个型号的预充式电子笔式注射器获得国内首张医疗器械注册证标志着该类产品正式
2025-10-12 05:27:00
山东移动5G-A护航济南地铁4号线,打通地下通信“快车道”
近日,济南轨道交通4号线彭家庄站、程家庄站、唐冶站、唐冶南站(以上站名均为工程名)已完成移动5G-A通信覆盖,标志着这条串联城市东西的“黄金线路”在通信保障上迈出关键一步
2025-10-12 08:45:00
人保财险青岛分公司:科技赋能推动农险“双精准”再升级
齐鲁晚报·齐鲁壹点记者 尚青龙近日,青岛平度的肉牛也有了自己的“数字身份证”。人保财险青岛分公司借鉴内蒙古先进经验,引入内蒙古沃付国际物联网有限公司自主研发的人工智能畜牧业数字化管理平台
2025-10-12 11:53:00
一线保障人员“时刻在岗”,烟台联通守护高铁5G网络畅通运行
国庆中秋假期期间,面对持续攀升的客运高峰,烟台联通网络保障团队坚守岗位,全力投入高铁沿线5G网络实时保障工作,通过精细化运维与快速响应
2025-10-12 11:53:00
第十九届中国(临朐)家居门窗博览会12日开幕
齐鲁晚报·齐鲁壹点 王佳潼10月11日,第十九届中国(临朐)家居门窗博览会媒体见面会在临朐召开。记者在会上获悉,第十九届中国(临朐)家居门窗博览会定于2025年10月12日至15日在临朐国际会展中心举办
2025-10-12 11:55:00
济南热力以低空智巡护航聊热入济
近日,“聊热入济”长距离供热项目施工现场传来新进展——济南能源集团所属热力集团部署的无人机智慧巡检系统,正沿这条 “供热长龙” 精准巡航
2025-10-12 15:50:00
山东移动聊城分公司圆满完成高唐一中百年校庆通信保障任务
百年薪火传,同心向未来。10月2日,聊城市高唐县第一中学建校100周年庆祝大会在高唐县隆重举行。海内外校友、各界嘉宾及在校师生欢聚一堂
2025-10-12 16:23:00
冲刺四季度 打好收官战丨湖北佳恒:以“智”提“质” 产值已超去年全年
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新锻造核心竞争力,湖北佳恒科技以智能化改造与自主研发双轮并进,推动企业高质量发展
2025-10-12 19:27:00