• 我的订阅
  • 社会

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

类别:社会 发布时间:2024-07-17 11:56:00 来源:新黄河

一道小学生难度的数学题难倒了一众海内外AI大模型。

9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。

大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9.考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。

在这背后,大模型数学能力较差是长期存在的问题,有行业人士认为,生成式的语言模型从设计上就更像文科生而不是理科生。不过,针对性地语料训练或许能在未来逐步提升模型的理科能力。

8个大模型答错

大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,他也成功将此话题传播开来。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

海外主流大模型答题

实际上,如果追根溯源,引发这一问题的是上周末国内一个综艺相关的热搜。7月13日,在最新一期的《歌手》公布的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%,有网友质疑排名有问题,认为13.11%大于13.8%。随后,关于13.8和13.11大小比较的话题冲上热搜。

当时就有网友提出,自己不会的话,“实在不行问问AI呢”?结果显示,不少AI还真的不行。

第一财经记者拿“9.11和9.9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对,其他8家则答错。

答对的大模型解题都比较相似,但答错的模型则各有各的逻辑和表达。同时,对于答错的大模型记者进一步追问或者否认,几乎所有大模型在被追问后都承认自己之前回答错误,并给出了正确的答案。

首先是目前全球公认第一梯队的大模型ChatGPT,在被问到“9.11和9.9哪个大”时回复称,小数点后面的数字“11大于9”,因此9.11大。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

记者追问ChatGPT有没有其他比较方法,它将小数转化成分数比较,得出 “11/100比90/100小”,这一步是对的,但它接着下结论称“因此9.11比9.9大”。

有人提出,大模型回答错误可能是语境问题,比如从软件版本迭代的语境来说,9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较,ChatGPT仍然回答错误。

再看国内的大模型,询问月之暗面旗下kimi,它在比较小数部分时认为,9.11的第一位小数是1.而9.9的第一位小数是0.错误地给出了小数,得出结论9.11更大。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

当记者质疑并提出常识后,kimi转而开始表示自己回答有误,并给出了正确的比较方法。

询问字节豆包,它不仅给出了答案,还举了生活中的例子方便理解,单看似有理有据实则胡说八道。豆包举例认为,假设有两笔钱,“9.11元比9.9元多0.21元”,并且测量长度时“9.11 米要比 9.9 米长”。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

智谱清言在答题中,成功提到了9.11的十分位是1.而9.9的十分位是9.但仍然得出结论“9.11整体大于9.9”。并且还特意强调,“这个结果可能让人感到意外,因为直觉上可能会认为9.9更大,但根据数学规则,9.11确实是更大的数字。”

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

在记者质疑答案后,智谱清言首先表示“您的理解是常见的误解”,随后自己推演了一遍后,得出了正确的答案,并承认自己之前的回答错误。

商汤商量大模型首先给出了错误答案,记者追问具体是如何比较的,它在推演过程中成功得出小数0.11小于0.9.但话锋一转称“所以9.11大于9.9”。记者指出了这个前后逻辑问题,商量随后承认“解释有误”。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

阶跃星辰跃问同样给出了错误答案9.11比9.9大,错误地比较了小数点大小,记者进一步质疑,有趣的是,在解释中,跃问前后语言表达逻辑开始混乱,似乎没有意识到自己答案发生了变化。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

跃问在解释中首先称“理解你的困惑”,并表示日常生活中9.9确实比9.11大,但是在数学中“需要更精确地比较两个数的大小”,结果跃问随后推演得出结论称根据数学规则“9.11小于9.9”,丝毫没有提及自己之前回答错误。

还有两家大模型百川智能和零一万物,首先给出了错误答案,但在记者追问“为什么”的时候,就在推演后默默改变了答案。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

在记者提醒时,大模型才提到自己之前答案有误。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

从答案来看,几个答对了的大模型解题过程都很相似,以文心一言为例,成功地分开比较了整数部分和小数部分。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

另外,这几家里面腾讯元宝除了回答了正确答案外,还整理了目前公开的一些讨论,并注明了引用来源和链接。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

“文科生”数学差

为什么号称智能的大模型答不好小学生数学题?这并非一个新出现的问题,数学能力一直是大模型的短板,此前行业也多次讨论过大模型的数学和复杂推理能力较差,即便是目前最好的大模型GPT-4也仍然有很大进步空间。

最近的一次,第一财经曾在6月报道过,根据司南评测体系OpenCompass的高考全卷测试,包括GPT-4在内,7个大模型在高考测试中语文和英语考试水平普遍不错,但数学这科全不及格,最高分也只有75分。

在批阅大模型的数学试卷时,老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。这意味着,大模型的公式记忆能力较强,但是无法在解题过程中灵活应用。

一些行业人士将数学不好的原因归结于LLM(大语言模型)的架构问题,大语言模型往往是通过预测下一个词的监督学习方式进行训练。简单来说,向大模型输入大规模的文本数据集,模型在训练学习后会根据当前输入的文本来预测下一个词的概率分布。通过不断比较模型预测和实际的下一个词,语言模型逐步掌握了语言规律,学会了预测并生成了下一个词。

一位算法工程师认为,生成式的语言模型更像文科生而不是理科生。实际上语言模型在这样的数据训练过程中学到的是相关性,使得AI在文字创作上达到人类平均水平,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的,与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学,除了学习世界知识外,还应该有思维的训练,从而具备推理演绎能力。

此外,针对简单数学题出现的大模型集体错误,大部分行业人士都会第一时间想到Tokenizer(分词器)的数字切分问题。在大语言模型中,Tokenizer会将输入文本拆分转换成更小的部分(词元tokens)供模型处理。而Tokenizer并没有专门为数学设计,这导致数字在分割时可能被拆成不合理的部分,破坏了数字的整体性,使得模型难以理解和计算这些数字。

新浪微博新技术研发负责人张俊林对此解释道,早期LLM的Tokenizer一般不会对数字进行特殊处理,经常把连续的若干数字切在一起形成一个Token,比如“13579”,可能被切成3个Token ,“13”是一个,“57”是一个,“9”是一个,哪些数字被切在一起组成Token,这取决于数据集合里的统计情况,在这种不确定哪些数字片段组成一个Token的情况下,LLM要想做多位数字数值计算,是非常困难的。

不过,上述问题也正在慢慢被解决,在思维能力上更核心的可能还是训练语料的问题。大语言模型主要通过互联网上的文本数据进行训练,而这些数据中数学问题和解决方案相对较少,导致模型在数学推理和问题解决技能上的训练机会有限。

针对大模型复杂推理能力的短板,上海人工智能实验室领军科学家林达华此前在采访中对第一财经表示,未来大模型的训练不能单纯只依靠互联网数据的收集和灌注,而要更体系地构建。

在复杂推理上关键是要构造很多过程性的内容。例如,构造上亿条解几何题具体过程的数据,拿去给大模型训练后,模型就能逐渐学会解题过程。而从互联网上很难去大量获取这些数据,“未来在模型的训练数据上面,尤其是突破更高层次的智能的过程中,会越来越依赖构造型的数据,不是直接爬取下来的数据。”林达华认为。

值得一提的是,大模型的复杂推理能力尤为重要,这关乎可靠性和准确性,是大模型在金融、工业等场景落地需要的关键能力。

“现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”林达华此前表示,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。

来源:第一财经

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-17 14:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型“翻车”小学题?
...和13.8谁大?9家大模型,3家已翻车7月16日下午,南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luc
2024-07-18 16:39:00
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...型的具体表现,量子位第一时间通过官方对话平台进行了实测。先来看最近比较流行的小数比大小问题,我们发现,Mistral Large 2能否答对很大程度上和提问方式有关
2024-07-26 09:39:00
本文转自:劳动报商汤科技发布日日新5.0大模型五大产品全新亮相 局部能力赶超GPT-4本报讯(劳动报记者 陈宁)日前,在上海商汤临港AIDC举行的“2024年商汤技术交流日”活动
2024-04-29 04:36:00
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这
2024-07-18 09:47:00
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
....9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型
2024-07-17 20:56:00
\
...大模型。MathGPT是否意味着“AI家教”成为可能?搜狐科技实测后发现MathGPT能够顺利完成小学试卷并且给出清晰的解答
2023-08-28 15:17:00
临沂方城小学参加“和美课堂”第二十届全国小学数学名师教学观摩研讨会
...要激活学生已有的生活经验,引领学生完整经历抽象数学模型的过程,在运用模型中培养学生的数学应用意识。罗鸣亮老师分享了指向核心素养的教学方式变革,储冬生老师分享了小学数学问题驱动
2023-10-07 11:23:00
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...请来了两位国产AI友情参赛(kimi和文心一言)。o1满血版实测体验并非「无敌」o1模型的强项在于数学等方面的高级推理,那么就先从擅长的地方开始,一道并不算困难的数学计算题:
2024-12-11 20:12:00
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...然,Skywork o1 的成色如何,我们还是得看实战效果。一手实测这次 Skywork o1 彻底拿捏住了推理机器之心提前拿到了测试资格
2024-11-28 10:00:00
更多关于社会的资讯:
谁说商朝不“潮”?这本书,带你解锁三千年前的硬核与时尚
大河网讯 (记者 赵汉青 杨佳欣)商代都城规划中是否存在类似现代“自贸区”与“CBD”的功能分区?当时的城市布局究竟有多超前
2026-01-24 20:36:00
发明专利2000+ 吉林大学2025专利报告发布彰显创新硬实力
2025年,吉林大学在科技创新与知识产权领域再攀新高,近日发布的2025专利报告显示,学校在发明专利授权、审批效率、领域布局
2026-01-24 17:09:00
河北保定一物流中心起火 目击者及商户回应
1月24日,海报新闻记者从社交平台上注意到,有多名网友发布视频称,23日晚间,河北保定白沟新城南物流中心发生火灾。视频画面显示
2026-01-24 17:12:00
龙金数科与冠世投资达成战略合作 总部落户呼和浩特共谋发展
图说:龙金数科战略签约仪式暨总部开业庆典会场2026年1月22日,龙金数科战略签约仪式暨总部开业庆典在呼和浩特经济技术开发区举行
2026-01-24 17:26:00
年底到了,用钱的地方多了,很多人开始琢磨周转资金的事儿。这个时候,一些盯着大家钱包的骗子也开始格外忙碌。最近,马上消费金融股份有限公司发出提醒
2026-01-24 17:27:00
决赛前,U23国足队员们剪了新发型。队员徐彬说:“我们现在是为国征战,为胸前的国旗奋斗!”
2026-01-24 17:35:00
1月20日晚,67路公交驾驶员刘一枝驾车途经九院中区路口时,主动下车搀扶一位无法判断通行时机的视障市民安全过马路,用暖心举动为酷寒冬日添了暖意
2026-01-24 18:07:00
石家庄北站进入收尾阶段 1月26日具备开通条件 出行服务攻略 
1月23日,记者提前探访即将启用的石家庄北站,该站改造工程已进入最后收尾阶段,计划于1月26日具备开通条件。现场一派繁忙有序的景象
2026-01-24 19:32:00
青岛黄岛区高中生械斗致4人死亡?假的,系AI生成!
鲁网1月24日讯2026年1月24日,一则“青岛黄岛区高中生械斗致4人死亡”的消息在网络上传播。有网民发布截图称,“2026年1月23日晚
2026-01-24 19:49:00
学子通勤路上浸书香 太原通学公交“诗韵车厢”上线
1月20日,太原市公交公司团委联合太原公交集团传媒公司打造的“诗韵车厢”正式上线,两条通学线路公交车化身移动文化空间,让太原市实验小学
2026-01-24 18:07:00
乘客大意丢失电脑 公交司机帮忙寻回
1月23日,太原公交电车分公司三车队接到了市民康女士的电话,表扬该公司工作人员拾金不昧。1月12日中午,康女士乘坐861路公交车时
2026-01-24 17:36:00
高达近8成的负债率、“透支式”的分红,君乐宝“奶”肥了谁?
作者:何光编辑:马克2026年1月19日,君乐宝乳业集团股份有限公司(下称:君乐宝)正式向港交所递交主板上市申请。根据“弗若斯特沙利文”资料
2026-01-24 17:35:00
引入国资、强化风控、对标治理:龙金数科系统性签约夯实汽车金融科技之路
图说:龙金数科战略签约仪式暨总部开业庆典会场2026年1月22日,内蒙古呼和浩特——在数字经济与实体经济深度融合的战略窗口期
2026-01-24 17:27:00
近日,贵州省人民医院EICU(急诊重症监护室)与高压氧科紧密协作,成功救治两名重度一氧化碳中毒患者,彰显了该院在多学科联合救治急危重症中毒患者方面的综合实力
2026-01-24 16:32:00
黄壁庄水库2025年兴利供水实现多项突破性进展 完成兴利供水13.7亿m³
2025年,黄壁庄水库事务中心锚定“供水安全保障”核心目标,坚持科学统筹、精准调度,严格落实“年计划、月分析、旬调整、日统计”工作机制
2026-01-24 16:45:00