• 我的订阅
  • 社会

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

类别:社会 发布时间:2024-07-17 11:56:00 来源:新黄河

一道小学生难度的数学题难倒了一众海内外AI大模型。

9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。

大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9.考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。

在这背后,大模型数学能力较差是长期存在的问题,有行业人士认为,生成式的语言模型从设计上就更像文科生而不是理科生。不过,针对性地语料训练或许能在未来逐步提升模型的理科能力。

8个大模型答错

大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,他也成功将此话题传播开来。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

海外主流大模型答题

实际上,如果追根溯源,引发这一问题的是上周末国内一个综艺相关的热搜。7月13日,在最新一期的《歌手》公布的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%,有网友质疑排名有问题,认为13.11%大于13.8%。随后,关于13.8和13.11大小比较的话题冲上热搜。

当时就有网友提出,自己不会的话,“实在不行问问AI呢”?结果显示,不少AI还真的不行。

第一财经记者拿“9.11和9.9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对,其他8家则答错。

答对的大模型解题都比较相似,但答错的模型则各有各的逻辑和表达。同时,对于答错的大模型记者进一步追问或者否认,几乎所有大模型在被追问后都承认自己之前回答错误,并给出了正确的答案。

首先是目前全球公认第一梯队的大模型ChatGPT,在被问到“9.11和9.9哪个大”时回复称,小数点后面的数字“11大于9”,因此9.11大。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

记者追问ChatGPT有没有其他比较方法,它将小数转化成分数比较,得出 “11/100比90/100小”,这一步是对的,但它接着下结论称“因此9.11比9.9大”。

有人提出,大模型回答错误可能是语境问题,比如从软件版本迭代的语境来说,9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较,ChatGPT仍然回答错误。

再看国内的大模型,询问月之暗面旗下kimi,它在比较小数部分时认为,9.11的第一位小数是1.而9.9的第一位小数是0.错误地给出了小数,得出结论9.11更大。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

当记者质疑并提出常识后,kimi转而开始表示自己回答有误,并给出了正确的比较方法。

询问字节豆包,它不仅给出了答案,还举了生活中的例子方便理解,单看似有理有据实则胡说八道。豆包举例认为,假设有两笔钱,“9.11元比9.9元多0.21元”,并且测量长度时“9.11 米要比 9.9 米长”。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

智谱清言在答题中,成功提到了9.11的十分位是1.而9.9的十分位是9.但仍然得出结论“9.11整体大于9.9”。并且还特意强调,“这个结果可能让人感到意外,因为直觉上可能会认为9.9更大,但根据数学规则,9.11确实是更大的数字。”

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

在记者质疑答案后,智谱清言首先表示“您的理解是常见的误解”,随后自己推演了一遍后,得出了正确的答案,并承认自己之前的回答错误。

商汤商量大模型首先给出了错误答案,记者追问具体是如何比较的,它在推演过程中成功得出小数0.11小于0.9.但话锋一转称“所以9.11大于9.9”。记者指出了这个前后逻辑问题,商量随后承认“解释有误”。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

阶跃星辰跃问同样给出了错误答案9.11比9.9大,错误地比较了小数点大小,记者进一步质疑,有趣的是,在解释中,跃问前后语言表达逻辑开始混乱,似乎没有意识到自己答案发生了变化。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

跃问在解释中首先称“理解你的困惑”,并表示日常生活中9.9确实比9.11大,但是在数学中“需要更精确地比较两个数的大小”,结果跃问随后推演得出结论称根据数学规则“9.11小于9.9”,丝毫没有提及自己之前回答错误。

还有两家大模型百川智能和零一万物,首先给出了错误答案,但在记者追问“为什么”的时候,就在推演后默默改变了答案。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

在记者提醒时,大模型才提到自己之前答案有误。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

从答案来看,几个答对了的大模型解题过程都很相似,以文心一言为例,成功地分开比较了整数部分和小数部分。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

另外,这几家里面腾讯元宝除了回答了正确答案外,还整理了目前公开的一些讨论,并注明了引用来源和链接。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

“文科生”数学差

为什么号称智能的大模型答不好小学生数学题?这并非一个新出现的问题,数学能力一直是大模型的短板,此前行业也多次讨论过大模型的数学和复杂推理能力较差,即便是目前最好的大模型GPT-4也仍然有很大进步空间。

最近的一次,第一财经曾在6月报道过,根据司南评测体系OpenCompass的高考全卷测试,包括GPT-4在内,7个大模型在高考测试中语文和英语考试水平普遍不错,但数学这科全不及格,最高分也只有75分。

在批阅大模型的数学试卷时,老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。这意味着,大模型的公式记忆能力较强,但是无法在解题过程中灵活应用。

一些行业人士将数学不好的原因归结于LLM(大语言模型)的架构问题,大语言模型往往是通过预测下一个词的监督学习方式进行训练。简单来说,向大模型输入大规模的文本数据集,模型在训练学习后会根据当前输入的文本来预测下一个词的概率分布。通过不断比较模型预测和实际的下一个词,语言模型逐步掌握了语言规律,学会了预测并生成了下一个词。

一位算法工程师认为,生成式的语言模型更像文科生而不是理科生。实际上语言模型在这样的数据训练过程中学到的是相关性,使得AI在文字创作上达到人类平均水平,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的,与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学,除了学习世界知识外,还应该有思维的训练,从而具备推理演绎能力。

此外,针对简单数学题出现的大模型集体错误,大部分行业人士都会第一时间想到Tokenizer(分词器)的数字切分问题。在大语言模型中,Tokenizer会将输入文本拆分转换成更小的部分(词元tokens)供模型处理。而Tokenizer并没有专门为数学设计,这导致数字在分割时可能被拆成不合理的部分,破坏了数字的整体性,使得模型难以理解和计算这些数字。

新浪微博新技术研发负责人张俊林对此解释道,早期LLM的Tokenizer一般不会对数字进行特殊处理,经常把连续的若干数字切在一起形成一个Token,比如“13579”,可能被切成3个Token ,“13”是一个,“57”是一个,“9”是一个,哪些数字被切在一起组成Token,这取决于数据集合里的统计情况,在这种不确定哪些数字片段组成一个Token的情况下,LLM要想做多位数字数值计算,是非常困难的。

不过,上述问题也正在慢慢被解决,在思维能力上更核心的可能还是训练语料的问题。大语言模型主要通过互联网上的文本数据进行训练,而这些数据中数学问题和解决方案相对较少,导致模型在数学推理和问题解决技能上的训练机会有限。

针对大模型复杂推理能力的短板,上海人工智能实验室领军科学家林达华此前在采访中对第一财经表示,未来大模型的训练不能单纯只依靠互联网数据的收集和灌注,而要更体系地构建。

在复杂推理上关键是要构造很多过程性的内容。例如,构造上亿条解几何题具体过程的数据,拿去给大模型训练后,模型就能逐渐学会解题过程。而从互联网上很难去大量获取这些数据,“未来在模型的训练数据上面,尤其是突破更高层次的智能的过程中,会越来越依赖构造型的数据,不是直接爬取下来的数据。”林达华认为。

值得一提的是,大模型的复杂推理能力尤为重要,这关乎可靠性和准确性,是大模型在金融、工业等场景落地需要的关键能力。

“现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”林达华此前表示,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。

来源:第一财经

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-17 14:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型“翻车”小学题?
...和13.8谁大?9家大模型,3家已翻车7月16日下午,南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luc
2024-07-18 16:39:00
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...型的具体表现,量子位第一时间通过官方对话平台进行了实测。先来看最近比较流行的小数比大小问题,我们发现,Mistral Large 2能否答对很大程度上和提问方式有关
2024-07-26 09:39:00
本文转自:劳动报商汤科技发布日日新5.0大模型五大产品全新亮相 局部能力赶超GPT-4本报讯(劳动报记者 陈宁)日前,在上海商汤临港AIDC举行的“2024年商汤技术交流日”活动
2024-04-29 04:36:00
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这
2024-07-18 09:47:00
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
....9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型
2024-07-17 20:56:00
\
...大模型。MathGPT是否意味着“AI家教”成为可能?搜狐科技实测后发现MathGPT能够顺利完成小学试卷并且给出清晰的解答
2023-08-28 15:17:00
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...请来了两位国产AI友情参赛(kimi和文心一言)。o1满血版实测体验并非「无敌」o1模型的强项在于数学等方面的高级推理,那么就先从擅长的地方开始,一道并不算困难的数学计算题:
2024-12-11 20:12:00
临沂方城小学参加“和美课堂”第二十届全国小学数学名师教学观摩研讨会
...要激活学生已有的生活经验,引领学生完整经历抽象数学模型的过程,在运用模型中培养学生的数学应用意识。罗鸣亮老师分享了指向核心素养的教学方式变革,储冬生老师分享了小学数学问题驱动
2023-10-07 11:23:00
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...然,Skywork o1 的成色如何,我们还是得看实战效果。一手实测这次 Skywork o1 彻底拿捏住了推理机器之心提前拿到了测试资格
2024-11-28 10:00:00
更多关于社会的资讯:
兔宝宝因货运重量存在误差被行政处罚
近日,齐鲁晚报·齐鲁壹点记者从中华人民共和国海事局官网处罚结果公示一栏中获悉,德华兔宝宝装饰新材股份有限公司(兔宝宝 002043)因在船舶国际集装箱货物运输经营活动中托运人提供的验证重量与实际重量存在误差
2025-10-25 09:30:00
数字铭忠魂,这是抗美援朝的精神密码!
今天(10 月 25 日)是中国人民志愿军抗美援朝出国作战75周年的日子当我们回望那段烽火岁月一组数字始终震撼人心、不容忘却 75年前他们义无反顾跨过鸭绿江在这场残酷鏖
2025-10-25 08:07:00
“本人没到场,他们就将我们的车过户了,现在钱没见到,车也不见了踪影。”10月23日,宣先生向华商报大风新闻记者反映,他和合伙人的车辆被榆林景达恒盛汽车检测站(以下简称
2025-10-25 07:48:00
河北新闻网讯(梁彬)近日,在“一池两新万企”行动中,唐山农商银行古冶支行精准施策,为辖内某柴烧工作室授信50万元,以金融力量为这门古老的柴烧工艺注入新动能
2025-10-25 07:48:00
纵览·9张|小书店里的诗情
壹 在石家庄,有一家“晴朗文艺书店”,它是无数诗词爱好者心中的“精神驿站”。店主李树冬,是怀揣文学梦的诗人,也是深耕俄语文学的翻译家
2025-10-25 07:47:00
2025年度京鲁奖教金第五站走进山东省实验中学
10月23日,2025年度京鲁奖教金第五站走进山东省实验中学。山东京鲁律师事务所创始合伙人王义松介绍,京鲁奖教金自2018年设立以来
2025-10-24 14:07:00
长白时评评论员 殷建光10月23日,青海网友发布的视频中,有人用布蘸取不明物品涂抹牛羊胴体,使其表面呈现异常鲜艳的红色
2025-10-24 15:19:00
2024年8月24日,茉莉花开·第八届全国青少年民族器乐教育教学成果现场展示活动在南京江苏大剧院圆满闭幕,闭幕式暨综合汇报演出为这场历时多日的艺术盛宴画上了精彩句号
2025-10-24 15:32:00
借力国际平台 共谋发展新篇 灵武市农交会推介会成果丰硕
第二十二届国际农产品交易会已圆满落幕,而宁夏灵武市在盛会中呈现的“黄金奶源”与“滩羊臻品”依旧香韵悠长,引人回味。10月17日
2025-10-24 15:32:00
Soul 兴趣主理人:在世界的褶皱中寻找自我
在浩瀚的网络里,旅行内容常见——从五分钟速通欧洲的“特种兵”攻略,到滤镜厚重的“网红打卡地”,但其千篇一律,让人觉得好像很难再看到旅行本身那种粗砺
2025-10-24 15:32:00
指尖传温情 泰安联通宁阳营业厅暖心服务获点赞
鲁网10月24日讯近日,泰安联通宁阳县中心营业厅,一对聋哑夫妇进厅办理业务,因语言交流受阻,营业员用细致服务化解沟通难题
2025-10-24 15:47:00
鲁网10月24日讯(记者 陈珊珊 通讯员 徐玉茹)随着气温持续下降,流感进入高发期。为保障学生身体健康,筑牢校园健康防线
2025-10-24 15:48:00
大皖正能量|他管了件“闲事”,让33年未谋面的亲人得以重逢
大皖新闻讯 10月23日午后,蚌埠火车站收发室的窗台上,多了封字迹工整的感谢信,信封上“卢老师收”四个字格外醒目,信内字里行间满是感激
2025-10-24 15:55:00
齐鲁晚报·齐鲁壹点记者 李家澍10月24日早高峰时段,南京地铁一号线突发设备故障,导致车厢内冒出浓烟,大量乘客在晓庄站紧急疏散
2025-10-24 15:57:00
华商网讯 10月24日,甘肃省临夏州公安局交通管理支队在州政府官方网站上发布了康乐县“6·22”较大道路交通事故调查报告
2025-10-24 16:55:00