• 我的订阅
  • 科技

9.11大还是9.9大?为什么一道小学数学题 难倒了大多数AI?

类别:科技 发布时间:2024-07-18 08:31:00 来源:杭州网

9.11和9.9哪个更大?一道小学生都会的数学题,却难倒了一众AI大模型。昨天,“大模型测不出9.11和9.9哪个大”还登上了微博热搜。

这个难倒大多数AI大模型的数学题,其实来自于最近热播的《歌手》。

7月13日,在最新一期《歌手》公布的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%。这个得票数统计引发了一些网友对排名的质疑。

有网友认为13.11%大于13.8%,因此,香缇莫的得票率比孙楠高。

随后,关于13.8%和13.11%大小比较,一度成了网络上的热门话题。当时也有网友提出,“实在不行问问AI”。

有趣的是,这道题AI大模型也不太会。有媒体记者测试了12个国内外主流大模型,其中,一半模型答错了,认为9.11大于9.9。橙柿互动记者们也好奇地提问了几家AI大模型。结果发现,有不少AI模型回答是错的,还有一些AI在答题时不太稳定。

比如昨天下午,当我的两位同事向kimi提出这个问题时,其中一位同事的kimi答案时对时错,且反应“冷淡”。而另外一位同事的kimi举例分析得十分在理,直观且很好理解。同样的问题询问了通义千问、文心一言、讯飞星火等AI模型,大部分AI回答正确并给出了详细的答题过程。

为什么一道小学数学题难倒了部分AI大模型?

昨天上午,通义实验室产品经理王晓明看到这则热搜和网友们的评论,第一反应是并不觉得奇怪,更像是网友玩的一个“花活”。王晓明说,大语言模型虽然在语言和文本类型的任务里能超越人类普通平均水平,但对于数学、物理这种强调逻辑性的任务短板比较明显。

也就是说,现在的大模型其实更像一个文科生。

“简单来说,大模型不会把这个问题像人类一样,当作一个比大小的题目。”

王晓明说,大模型的本质是通过提示词,也就是提的问题,对下一个词进行预测,而不是做算术计算。这个跟平时的训练数据和大模型配置有关。

所以在处理“9.11和9.9哪个更大”这样的对话场景时,大模型不像人类,不会天然地把这个问题视作算数比大小的题目,可能会把这当成日期“9月11日”,拿9.11里面的11和9.9里面的9做对比。“在这种情况下,它就会认为11比9更大。这是由大模型处理的流程或机制决定的。有些大模型对指令识别得更好,答对概率就比较高。我们内部测试发现,通义绝大部分情况能答对。”

还有不少网友发现,调整提示词的顺序,大模型给出的答案准确率也不一致。比如把提示词从“9.11和9.9谁更大”换成“哪个更大:9.11和9.9”,前一种情况几乎全军覆没,而后一种情况大部分大模型都能答对。

在王晓明看来,这是因为大多数模型对于后一句提示词能更快更准确地理解这是一个比大小的问题,而不是比日期或者其他数字场景,这样预测的概率就会大大提高。

“另外,这跟模型本身预置的数理逻辑、训练数据以及配置都有关系。第二种情况下,更接近于模型之前训练阶段遇到的场景,所以答对的概率比较高。”

王晓明说,使用大模型相当于一个调教的过程。虽然预测本身带有随机性,存在成功的概率,也有失败的概率。但大模型根据他的回答及你的订正去生成一个新的回答,订正的过程会作为下一轮的输入。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-18 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型“翻车”小学题?
13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉
2024-07-18 16:39:00
学而思携九章大模型、学而思学习机亮相世界人工智能大会
...九章随时问”的拍题讲题能力。当用手机拍摄一道四年级数学题,它并不直接给出答案,而是分析了题目考察的知识点和形式,再引导用户进行一步步思考,在启发下自主解决问题。这一明显区别于
2024-07-04 23:00:00
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问
2024-07-17 11:56:00
让马斯克让出C位的吴宇怀,在杭州念书时是这样子的
...本都会抽时间回母校看看,还常常会问数学老师:你们出数学题的时候是怎么思考的?2015年,建兰中学举办20周年校庆启动仪式,正巧在杭州的吴宇怀欣然接受母校的邀请,作为优秀学生代
2025-02-22 08:29:00
\
...。进入MathGPT首页,有小学、初中与高中三个不同程度的数学题难度。其中题目类型包含了找规律、逻辑分析、运算求解、随机现象、表达论述等。用户可以选择不同类型的数学题目进行针
2023-08-28 15:17:00
好未来自研数学大模型MathGPT开启内测 用AI实现因材施教
...造的大模型。用户使用MathGPT时,用文字或图片方式上传数学题,即可得到对话式的解答反馈,也可以通过“随机来一题”的按钮,随机生成数学题目并由系统给出解答。目前,MathG
2023-08-24 19:02:00
...大模型的数学水平,赵海笑道:“很多人没考过GRE,其实GRE的数学题难度和中国小学数学题差不多。GPT-4的数学水平不会很高
2023-03-16 09:23:00
...的解题技巧,才能为学生在今后的学习中赢得先机。一道数学题,往往具有多种解题方法,在教学中,教师不能只教授一种解题技巧或思维,要引导开发学生好奇的心理,让学生理解掌握数学中的多
2023-07-28 06:39:00
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...试直接用图片进行提问,可以让我们输入一些比较抽象的数学题,比如一道来自小学四年级的奥林匹克竞赛题:还是惯例先看看国产AI的回答: kimi文心一言两个国产AI分别给出了A和
2024-12-11 20:12:00
更多关于科技的资讯:
人工智能如何赋能“安徽万物”?
大皖新闻讯 1月16日,《安徽省“人工智能+万物”应用行动方案》发布,到2030年,安徽“人工智能+万物”应用落地将超万个
2026-01-17 21:56:00
鲁网1月17日讯1月13日上午,普惠(临沂)投资服务有限公司考察组一行赴临沂市供应链金融协会开展学习交流活动。临沂市供应链金融协会会长
2026-01-17 14:47:00
1月16日,全球最大、起重量达2300吨的桥面吊机在河北省秦皇岛市一装备制造企业正式下线,标志着我国在大型桥梁施工装备领域又获重大突破
2026-01-17 15:44:00
2026天然苏打水市场趋势:健康化、场景化成主流 泉匠深耕多区域市场实现销量突破
随着健康消费理念的深度渗透,天然苏打水行业正迎来高质量发展的黄金期。据行业权威报告预测,2026年中国天然苏打水市场规模将突破260亿元
2026-01-17 15:58:00
开元云与广西大学人工智能学院达成战略合作,共建AI产教融合新高地
广西大学人工智能学院常务副院长张振荣、副院长赵志刚、陈燕教授等老师,出席双方产学研合作签约仪式。2026年1月15日 广西南宁
2026-01-17 15:58:00
数据接口安全风险监测国标正式发布!深信服深度参编
根据2025年12月2日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2025年第33号)
2026-01-17 16:00:00
近日,国网潢川县供电公司依托用电信息采集系统及“专变负载可视化”数据集,构建反向有功异常自动监测告警机制,实现非光伏用户反向用电异常精准识别处置
2026-01-17 16:00:00
新消费|万物皆可租!这届年轻人为何“能租就不买”?
租一台口袋相机只需30元一天专业优质的画质却可以让旅途回忆更生动用百来元就能配齐一整套露营装备花100元便能轻松满足整趟出国旅行的穿搭需要……如今越来越多的年轻人正通过“租赁”重新定义自己的消费方式近日
2026-01-17 16:54:00
冷暖省电双先锋!美的酷省电二代横扫抖音商城三榜冠军
2026刚开年,空调行业首款爆品已然出现——全新上市美的酷省电二代便凭硬核实力脱颖而出,强势斩获抖音商城智能空调爆款榜
2026-01-17 16:00:00
厦门钨业通过技术创新与人才创新,不断攻克行业技术难题,塑造发展新动能让“有色”更出色东南网1月17日讯 (福建日报记者 戴敏 李向娟)近日
2026-01-17 11:38:00
在漳州龙文区,智能机器人等一批前沿项目正在聚集,新质生产力蓬勃生长——“未来场景”来到家门口东南网1月17日讯 (福建日报报业集团记者 杨凌怡 通讯员 张小惠)广场前
2026-01-17 11:41:00
中国姚绣站上巴黎大展C位
1月15日至19日,非遗苏绣品牌姚绣(Yao Silk)再度亮相巴黎M&O展,成为本届展会Fine Craft(精品工艺)展区唯一中国品牌
2026-01-17 09:40:00
民大学子全国“摘金” AI巧解垃圾分类与楼宇管理难题
荆楚网(湖北日报网)讯(记者林杉 许文秀 通讯员陈韶月 张祎晗)面对垃圾分类的效率瓶颈,人工智能与机械设计如何给出更优解
2026-01-17 10:36:00
长白时评评论员 久泰平近日多起滥用“七天无理由退货”的新闻引发社会关注。有商家曝光,有学生集体网购演出服,演出后再把带着污渍
2026-01-17 05:55:00
1月14日消息,工业和信息化部近日公布了2025年全国中小企业人工智能典型应用场景名单,晋西春雷自主研发的“AI视觉质检实现铜带缺陷精准识别”项目成功入选
2026-01-17 07:39:00