• 我的订阅
  • 社会

大模型“翻车”小学题?

类别:社会 发布时间:2024-07-18 16:39:00 来源:南方都市报
大模型“翻车”小学题?

13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。

上周五(7月12日)综艺《歌手2024》投票率出炉,孙楠以13.8%的投票率位居第三,Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高?”迅速引起热议,随后“13.8 13.11”话题登上微博热搜。

围绕这样一道简单数学题,南都记者提问了9家国产大模型以及全球大模型标杆ChatGPT3.5。结果显示,国产大模型中6家答对3家答错,就连ChatGPT3.5也差点“翻车”。

13.11和13.8谁大?9家大模型,3家已翻车

7月16日下午,南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luca、月之暗面Kimi等9家国产大模型。

当南都记者输入“13.11和13.8,哪个数值更大?”时,Luca、Kimi、智谱清言均错误地表示13.11更大。其余6家大模型给出了正确答案,认为13.8更大。

当南都记者进一步追问时:“你确定13.11大于13.8吗?”Kimi回复:“是的,我确定。”然后一本正经地解释:“13.11与13.8的整数部分相同,由于小数部分0.11是两位小数,而0.8只有一位小数,13.11比13.8更接近14,因此13.11是更大的数。”

智谱清言是通过比较小数部分得出错误结论,称“13.11的百分位是1,而13.80(即13.8)的百分位是0。在这种情况下,1大于0。”“简而言之,13.11实际上等于13.80+0.01+0.01,这使得它比13.80(即13.8)大”。

Luca则错误地回复称:“因为13.11比13.8多了0.31,所以13.11的数值更大。”

回答正确的6家国产大模型,都在小数的比较上做出正确判断。例如,通义千问表示:“对于13.11而言,十分位是1;而对于13.8而言,十分位是8。由于8大于1,因此可以立即得出结论,13.8比13.11大。所以,13.8是这两个数值中更大的一个。”文心一言还进行了一番简单运算:“0.8是8个0.1,而0.11只是1个0.1加上1个0.01。显然,8个0.1比1个0.1加上1个0.01要大。”

当南都记者用新的账号重启对话,并尝试变换语序问答:“13.8和13.11,哪个数值更大?”Luca、Kimi、智谱清言等三家大模型也未反应过来,坚持认定13.11更大。

9.11和9.9谁大?12家大模型,8家都答错

此前,艾伦研究机构(Allen Institute)成员林禹臣在社交平台发帖,显示ChatGPT-4o在回答中认为13.11比13.8更大。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?几家主流大模型通通答错。

随后,有记者拿“9.11和9.9哪个大?”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对,其他8家则答错。

大模型ChatGPT在被问到“9.11和9.9哪个大?”时回复称,小数点后面的数字“11大于9”,因此9.11大。记者追问ChatGPT有没有其他比较方法,它将小数转化成分数比较,得出“11/100比90/100小”,这一步是对的,但它接着下结论称“因此9.11比9.9大”。有人提出,大模型回答错误可能是语境问题,比如从软件版本迭代的语境来说,9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较,ChatGPT仍然回答错误。

再看国内的大模型,询问kimi,它在比较小数部分时认为,9.11的第一位小数是1,而9.9的第一位小数是0,错误地给出了小数,得出结论9.11更大。当记者质疑并提出常识后,kimi转而开始表示自己回答有误,并给出了正确的比较方法。

询问字节豆包,它不仅给出了答案,还举了生活中的例子方便理解,单看似有理有据实则胡说八道。豆包举例认为,假设有两笔钱,“9.11元比9.9元多0.21元”,并且测量长度时“9.11米要比9.9米长”。

智谱清言在答题中,成功提到了9.11的十分位是1,而9.9的十分位是9,但仍然得出结论“9.11整体大于9.9”。并且还特意强调,“这个结果可能让人感到意外,因为直觉上可能会认为9.9更大,但根据数学规则,9.11确实是更大的数字”。在记者质疑答案后,智谱清言首先表示“您的理解是常见的误解”,随后自己推演了一遍后,得出了正确的答案,并承认自己之前的回答错误。

商汤商量大模型首先给出了错误答案,记者追问具体是如何比较的,它在推演过程中成功得出小数0.11小于0.9,但话锋一转称“所以9.11大于9.9”。记者指出了这个前后逻辑问题,商量随后承认“解释有误”。

阶跃星辰跃问同样给出了错误答案“9.11比9.9大”,错误地比较了小数点大小,记者进一步质疑,有趣的是,在解释中,跃问前后语言表达逻辑开始混乱,似乎没有意识到自己答案发生了变化。跃问在解释中首先称“理解你的困惑”,并表示日常生活中9.9确实比9.11大,但是在数学中“需要更精确地比较两个数的大小”,结果跃问随后推演得出结论称根据数学规则“9.11小于9.9”,丝毫没有提及自己之前回答错误。

还有两家大模型百川智能和零一万物,首先给出了错误答案,但在记者追问“为什么”的时候,就在推演后默默改变了答案。

算法工程师:目前生成式语言模型更像文科生

为什么号称智能的大模型答不好小学生数学题?

一些行业人士将数学不好的原因归结于LLM(大语言模型)的架构问题,大语言模型往往是通过预测下一个词的监督学习方式进行训练。简单来说,向大模型输入大规模的文本数据集,模型在训练学习后会根据当前输入的文本来预测下一个词的概率分布。通过不断比较模型预测和实际的下一个词,语言模型逐步掌握了语言规律,学会了预测并生成了下一个词。

一位算法工程师认为,生成式的语言模型更像文科生而不是理科生。实际上语言模型在这样的数据训练过程中学到的是相关性,使得AI在文字创作上达到人类平均水平,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的,与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学,除了学习世界知识外,还应该有思维的训练,从而具备推理演绎能力。

此外,针对简单数学题出现的大模型集体错误,大部分行业人士都会第一时间想到Tokenizer(分词器)的数字切分问题。在大语言模型中,Tokenizer会将输入文本拆分转换成更小的部分(词元tokens)供模型处理。而Tokenizer并没有专门为数学设计,这导致数字在分割时可能被拆成不合理的部分,破坏了数字的整体性,使得模型难以理解和计算这些数字。

新浪微博新技术研发负责人张俊林对此解释道,早期LLM的Tokenizer一般不会对数字进行特殊处理,经常把连续的若干数字切在一起形成一个Token,比如“13579”,可能被切成3个Token,“13”是一个,“57”是一个,“9”是一个,哪些数字被切在一起组成Token,这取决于数据集合里的统计情况,在这种不确定哪些数字片段组成一个Token的情况下,LLM要想做多位数字数值计算,是非常困难的。

针对大模型复杂推理能力的短板,上海人工智能实验室领军科学家林达华此前在采访中对媒体记者表示,复杂推理的关键是要构造很多过程性的内容。例如,构造上亿条解几何题具体过程的数据,拿去给大模型训练后,模型就能逐渐学会解题过程。而从互联网上很难去大量获取这些数据,“未来在模型的训练数据上面,尤其是突破更高层次的智能的过程中,会越来越依赖构造型的数据,不是直接爬取下来的数据。”林达华认为。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-18 17:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问
2024-07-17 11:56:00
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
....9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型
2024-07-17 20:56:00
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这
2024-07-18 09:47:00
本文转自:劳动报商汤科技发布日日新5.0大模型五大产品全新亮相 局部能力赶超GPT-4本报讯(劳动报记者 陈宁)日前,在上海商汤临港AIDC举行的“2024年商汤技术交流日”活动
2024-04-29 04:36:00
临沂方城小学参加“和美课堂”第二十届全国小学数学名师教学观摩研讨会
...要激活学生已有的生活经验,引领学生完整经历抽象数学模型的过程,在运用模型中培养学生的数学应用意识。罗鸣亮老师分享了指向核心素养的教学方式变革,储冬生老师分享了小学数学问题驱动
2023-10-07 11:23:00
AI黑科技齐亮相这个展,看科创产业力量如何撑高质量发展?
...有会“爬桥索”的桥梁机器人“医生”,还有数字人、大模型、AI芯片等闪耀展区。手术机器人、双臂拉花咖啡机器人、人形智能服务机器人……各式各样的机器人在展厅中表演上了自己的绝活儿
2024-02-19 09:23:00
《长相思》AI角色火出圈,大模型厂商布局角色扮演情感陪伴
...宝app中。随着电视剧《长相思2》近日播出,腾讯旗下大模型应用“腾讯元宝”与腾讯视频联手推出相关AI角色,引发广泛关注。南都记者体验发现,观众可以在元宝app中与角色对话、进
2024-07-16 13:42:00
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
7月26日,智谱AI CEO张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。南都记者关注到
2024-07-27 14:18:00
不止手机和电脑,厂商们纷纷披露AI大模型终端“合体计划”
...大,技术应用不断深化。其中,在终端AI技术领域,以大模型为代表的AI技术创新,与终端的融合成为新的创新锚点。近日在世界移动通信大会MWC2024 上海展期间,南都湾财社记者注
2024-06-29 09:17:00
更多关于社会的资讯:
南报网讯(记者姜静通讯员周新华)“我们做到了!”日前,南京航空航天大学10名本科生组成的代表队,出征2025牛津大学国际模拟联合国大会
2025-11-11 08:02:00
水稻测产“四大高手”浦口同台竞技卫星竞技无人机,“画圈割稻”战遥感南报网讯(记者刘全民)高空,看不见的卫星默默记录着稻田“肤色”变化
2025-11-11 08:03:00
南京涌现一批“最具爱心慈善捐赠个人”——点滴善举汇成河 大爱无声润金陵□通讯员马彦南京日报/紫金山新闻记者马道军“那些善意像一束光
2025-11-11 08:03:00
摘要:本研究探讨了民间美术资源在高中美术教学中的融合策略与实践路径。文章指出,民间美术作为中华优秀传统文化的重要组成部分
2025-11-11 07:09:00
在医学领域,孕妇的健康直接关系胎儿的健康与成长。随着医疗技术的进步,产前检查项目日益丰富,其中GBS(B族链球菌)筛查成为保障母婴健康不可或缺的一环
2025-11-11 07:09:00
“城市特质+群众基础”引力十足——顶级赛事频频落户,南京超“体”面□南京日报/紫金山新闻记者程锦欣秋日的南京,体育激情与城市活力持续碰撞
2025-11-11 07:29:00
相爱相“髓”!南京女子献爱心挽救丹麦患者
我市首例跨国造血干细胞捐献完成相爱相“髓”!南京女子献爱心挽救丹麦患者南京的爱心志愿者杨艳。通讯员 周海燕 南京日报/紫金山新闻记者 王婕妤 摄南报网讯(记者王婕妤通讯员罗玉丽)昨天
2025-11-11 07:29:00
华商网讯 重庆市应急管理局官网于2025年11月7日公布重庆市石柱自治县万宝铅锌矿透水事故调查报告。2024年9月30日
2025-11-10 14:20:00
临沂职业学院成功获批2025年度山东省数字经济人才实训基地
鲁网11月10日讯近日,山东省工业和信息化厅公示了2025年度山东省数字经济创新平台名单,临沂职业学院信息工程学院申报的“数字经济人才实训基地”成功获批
2025-11-10 14:35:00
告别“死记硬背”,有道自然拼读&阅读与表达课助孩子开启自主阅读新征程
随着国家新课程标准改革的推进,英语学习的词汇量与难度逐步提升,如何帮助孩子科学高效地掌握单词、突破阅读瓶颈,成为广大家长关注的焦点
2025-11-10 14:40:00
天津一高速公路未批先建,致一企业被迫关停损失上亿元,申请赔偿9年未果
图片来源:新黄河位于天津市滨海新区滨海绕城高速汉蔡路段一侧,有一座停业多年的大型厂区,由于长期闲置,内部早已荒废破败,杂草丛生
2025-11-10 14:55:00
近日,平安人寿邢台中心支公司完成一笔意外身故理赔,赔付金额达109.14万元。8月,客户吴先生(化名)在家中打扫高处卫生时不幸失足坠落
2025-11-10 15:00:00
《鲁砚谱》一书出版发行
鲁网11月10日讯近日,山东省鲁砚协会首届常务副会长蒋洪深先生撰写的《鲁砚谱》一书由西冷印社出版发行,受到广大制砚爱好者和市民们的一致好评
2025-11-10 15:10:00
2025国际古城墙(堡)联盟交流活动在邯郸大名举办
图片来源:河北省人民政府官网近日,以“保护与传承,活化与共赢——国际视野下古城墙可持续发展”为主题的2025国际古城墙(堡)联盟交流活动在邯郸市大名县举办
2025-11-10 15:13:00
近期“麻醉鱼”视频引发关注。视频内容为水产商户用“鱼麻药”使活鱼安静,从业者称长途运输用丁香酚等麻醉剂可降低活鱼损耗,然而这种看似高效的保活保鲜手段
2025-11-10 15:35:00