• 我的订阅
  • 社会

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

类别:社会 发布时间:2024-07-17 11:56:00 来源:新黄河

一道小学生难度的数学题难倒了一众海内外AI大模型。

9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。

大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9.考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。

在这背后,大模型数学能力较差是长期存在的问题,有行业人士认为,生成式的语言模型从设计上就更像文科生而不是理科生。不过,针对性地语料训练或许能在未来逐步提升模型的理科能力。

8个大模型答错

大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,他也成功将此话题传播开来。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

海外主流大模型答题

实际上,如果追根溯源,引发这一问题的是上周末国内一个综艺相关的热搜。7月13日,在最新一期的《歌手》公布的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%,有网友质疑排名有问题,认为13.11%大于13.8%。随后,关于13.8和13.11大小比较的话题冲上热搜。

当时就有网友提出,自己不会的话,“实在不行问问AI呢”?结果显示,不少AI还真的不行。

第一财经记者拿“9.11和9.9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对,其他8家则答错。

答对的大模型解题都比较相似,但答错的模型则各有各的逻辑和表达。同时,对于答错的大模型记者进一步追问或者否认,几乎所有大模型在被追问后都承认自己之前回答错误,并给出了正确的答案。

首先是目前全球公认第一梯队的大模型ChatGPT,在被问到“9.11和9.9哪个大”时回复称,小数点后面的数字“11大于9”,因此9.11大。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

记者追问ChatGPT有没有其他比较方法,它将小数转化成分数比较,得出 “11/100比90/100小”,这一步是对的,但它接着下结论称“因此9.11比9.9大”。

有人提出,大模型回答错误可能是语境问题,比如从软件版本迭代的语境来说,9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较,ChatGPT仍然回答错误。

再看国内的大模型,询问月之暗面旗下kimi,它在比较小数部分时认为,9.11的第一位小数是1.而9.9的第一位小数是0.错误地给出了小数,得出结论9.11更大。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

当记者质疑并提出常识后,kimi转而开始表示自己回答有误,并给出了正确的比较方法。

询问字节豆包,它不仅给出了答案,还举了生活中的例子方便理解,单看似有理有据实则胡说八道。豆包举例认为,假设有两笔钱,“9.11元比9.9元多0.21元”,并且测量长度时“9.11 米要比 9.9 米长”。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

智谱清言在答题中,成功提到了9.11的十分位是1.而9.9的十分位是9.但仍然得出结论“9.11整体大于9.9”。并且还特意强调,“这个结果可能让人感到意外,因为直觉上可能会认为9.9更大,但根据数学规则,9.11确实是更大的数字。”

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

在记者质疑答案后,智谱清言首先表示“您的理解是常见的误解”,随后自己推演了一遍后,得出了正确的答案,并承认自己之前的回答错误。

商汤商量大模型首先给出了错误答案,记者追问具体是如何比较的,它在推演过程中成功得出小数0.11小于0.9.但话锋一转称“所以9.11大于9.9”。记者指出了这个前后逻辑问题,商量随后承认“解释有误”。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

阶跃星辰跃问同样给出了错误答案9.11比9.9大,错误地比较了小数点大小,记者进一步质疑,有趣的是,在解释中,跃问前后语言表达逻辑开始混乱,似乎没有意识到自己答案发生了变化。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

跃问在解释中首先称“理解你的困惑”,并表示日常生活中9.9确实比9.11大,但是在数学中“需要更精确地比较两个数的大小”,结果跃问随后推演得出结论称根据数学规则“9.11小于9.9”,丝毫没有提及自己之前回答错误。

还有两家大模型百川智能和零一万物,首先给出了错误答案,但在记者追问“为什么”的时候,就在推演后默默改变了答案。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

在记者提醒时,大模型才提到自己之前答案有误。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

从答案来看,几个答对了的大模型解题过程都很相似,以文心一言为例,成功地分开比较了整数部分和小数部分。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

另外,这几家里面腾讯元宝除了回答了正确答案外,还整理了目前公开的一些讨论,并注明了引用来源和链接。

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

“文科生”数学差

为什么号称智能的大模型答不好小学生数学题?这并非一个新出现的问题,数学能力一直是大模型的短板,此前行业也多次讨论过大模型的数学和复杂推理能力较差,即便是目前最好的大模型GPT-4也仍然有很大进步空间。

最近的一次,第一财经曾在6月报道过,根据司南评测体系OpenCompass的高考全卷测试,包括GPT-4在内,7个大模型在高考测试中语文和英语考试水平普遍不错,但数学这科全不及格,最高分也只有75分。

在批阅大模型的数学试卷时,老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。这意味着,大模型的公式记忆能力较强,但是无法在解题过程中灵活应用。

一些行业人士将数学不好的原因归结于LLM(大语言模型)的架构问题,大语言模型往往是通过预测下一个词的监督学习方式进行训练。简单来说,向大模型输入大规模的文本数据集,模型在训练学习后会根据当前输入的文本来预测下一个词的概率分布。通过不断比较模型预测和实际的下一个词,语言模型逐步掌握了语言规律,学会了预测并生成了下一个词。

一位算法工程师认为,生成式的语言模型更像文科生而不是理科生。实际上语言模型在这样的数据训练过程中学到的是相关性,使得AI在文字创作上达到人类平均水平,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的,与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学,除了学习世界知识外,还应该有思维的训练,从而具备推理演绎能力。

此外,针对简单数学题出现的大模型集体错误,大部分行业人士都会第一时间想到Tokenizer(分词器)的数字切分问题。在大语言模型中,Tokenizer会将输入文本拆分转换成更小的部分(词元tokens)供模型处理。而Tokenizer并没有专门为数学设计,这导致数字在分割时可能被拆成不合理的部分,破坏了数字的整体性,使得模型难以理解和计算这些数字。

新浪微博新技术研发负责人张俊林对此解释道,早期LLM的Tokenizer一般不会对数字进行特殊处理,经常把连续的若干数字切在一起形成一个Token,比如“13579”,可能被切成3个Token ,“13”是一个,“57”是一个,“9”是一个,哪些数字被切在一起组成Token,这取决于数据集合里的统计情况,在这种不确定哪些数字片段组成一个Token的情况下,LLM要想做多位数字数值计算,是非常困难的。

不过,上述问题也正在慢慢被解决,在思维能力上更核心的可能还是训练语料的问题。大语言模型主要通过互联网上的文本数据进行训练,而这些数据中数学问题和解决方案相对较少,导致模型在数学推理和问题解决技能上的训练机会有限。

针对大模型复杂推理能力的短板,上海人工智能实验室领军科学家林达华此前在采访中对第一财经表示,未来大模型的训练不能单纯只依靠互联网数据的收集和灌注,而要更体系地构建。

在复杂推理上关键是要构造很多过程性的内容。例如,构造上亿条解几何题具体过程的数据,拿去给大模型训练后,模型就能逐渐学会解题过程。而从互联网上很难去大量获取这些数据,“未来在模型的训练数据上面,尤其是突破更高层次的智能的过程中,会越来越依赖构造型的数据,不是直接爬取下来的数据。”林达华认为。

值得一提的是,大模型的复杂推理能力尤为重要,这关乎可靠性和准确性,是大模型在金融、工业等场景落地需要的关键能力。

“现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”林达华此前表示,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。

来源:第一财经

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-17 14:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型“翻车”小学题?
...和13.8谁大?9家大模型,3家已翻车7月16日下午,南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luc
2024-07-18 16:39:00
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...型的具体表现,量子位第一时间通过官方对话平台进行了实测。先来看最近比较流行的小数比大小问题,我们发现,Mistral Large 2能否答对很大程度上和提问方式有关
2024-07-26 09:39:00
本文转自:劳动报商汤科技发布日日新5.0大模型五大产品全新亮相 局部能力赶超GPT-4本报讯(劳动报记者 陈宁)日前,在上海商汤临港AIDC举行的“2024年商汤技术交流日”活动
2024-04-29 04:36:00
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这
2024-07-18 09:47:00
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
....9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型
2024-07-17 20:56:00
\
...大模型。MathGPT是否意味着“AI家教”成为可能?搜狐科技实测后发现MathGPT能够顺利完成小学试卷并且给出清晰的解答
2023-08-28 15:17:00
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...请来了两位国产AI友情参赛(kimi和文心一言)。o1满血版实测体验并非「无敌」o1模型的强项在于数学等方面的高级推理,那么就先从擅长的地方开始,一道并不算困难的数学计算题:
2024-12-11 20:12:00
临沂方城小学参加“和美课堂”第二十届全国小学数学名师教学观摩研讨会
...要激活学生已有的生活经验,引领学生完整经历抽象数学模型的过程,在运用模型中培养学生的数学应用意识。罗鸣亮老师分享了指向核心素养的教学方式变革,储冬生老师分享了小学数学问题驱动
2023-10-07 11:23:00
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...然,Skywork o1 的成色如何,我们还是得看实战效果。一手实测这次 Skywork o1 彻底拿捏住了推理机器之心提前拿到了测试资格
2024-11-28 10:00:00
更多关于社会的资讯:
东南网12月9日讯(本网记者 卢金福)今日上午,福建省委宣传部召开“在中国式现代化建设中奋勇争先 奋力谱写新征程新福建建设新篇章”系列主题新闻发布会(第三场)
2025-12-09 14:07:00
邀您执笔 共叙西延!“我的西延故事”征集活动开启
今年是中央红军长征胜利到达陕北90周年,同时也是国家“十四五”规划的收官之年。作为陕北革命老区首条高铁,西延高铁不仅是国家高速铁路网包(银)海通道的重要组成部分
2025-12-09 14:29:00
大皖新闻讯 身为驾校教练,竟然醉酒驾驶逾期未审、未购买交强险的教练车上路行驶,路遇交警查酒驾,还企图弃车逃跑。12月5日中午
2025-12-09 14:44:00
广西桂林一河段出现白色泡沫,官方通报
中国网12月9日讯据“桂林龙胜”公众号消息,桂林市龙胜生态环境局12月9日通报,12月8日7时30分许,该局接到龙脊镇人民政府报告和群众举报
2025-12-09 15:26:00
信任稀缺时代,轻喜到家如何实现与用户的“双向奔赴”?
“可以说管阿姨是个优秀的家政保姆,请公司给她以表扬和鼓励!” 这行质朴的文字,出自一位89岁长者——张奶奶亲笔写下的感谢信
2025-12-09 15:28:00
2025世界女性创业论坛暨颁奖典礼博鳌收官,绽放“她力量”
北京时间2025年11月27日-30日, 由世界夫人集团 (WORLD MADAM Group) 、30多家品牌机构与媒体机构联合支持的“世界夫人集团2025EMPOWERHER
2025-12-09 15:31:00
复旦大学国家文化创新研究中心亮相2025博鳌文化经济发展论坛
近日,由新华网、北京大学文化产业研究院、复旦大学国家文化创新研究中心共同主办的“2025博鳌文化经济发展论坛”在海南博鳌成功举办
2025-12-09 15:52:00
大皖新闻讯 生病请假,出勤考核扣分吗?小学体测成绩会计入体育中考总分吗?不会球类运动,现在报班还来得及吗?从昨天开始,家长圈里讨论最热烈的莫过于合肥市中考改革
2025-12-09 15:55:00
重庆警方通报网传“一温泉酒店更衣室疑似存在偷拍行为”:2人被刑拘
中国网12月9日讯 重庆市公安局沙坪坝分局12月9日通报,网传“一温泉酒店更衣室疑似存在偷拍行为”,警方迅速开展调查,并于12月9日上午7时许
2025-12-09 15:57:00
12月3日,“花式过冬 嗨游辽宁,辽宁学子游辽宁”主题校园推介活动走进大连外国语大学,以趣味互动、精彩展演与专属福利,为冬日校园注入暖意。【责任编辑:郭旭】
2025-12-09 16:29:00
当2万余个原创作品汇聚成4亿次全网传播热度,“我的铁路风景”故事汇的圆满收官,不仅定格了铁轨上的万千风景,更编织起一幅流动中国的鲜活画卷
2025-12-09 16:29:00
潮新闻讯 60元取卡针被炒是铂金300元回收?苹果官方:非铂金制成。卖家:我知道不是,但有人信有人买,咨询量暴增。门店库存告急。
2025-12-09 16:29:00
《宁好北岸》文创闪耀推介!北岸印象,江风回响!
为更好地挖掘、传承和弘扬南京江北地域文化,展现南京长江北岸的人文魅力与时代风采。12月6日,由南京《宁好北岸》编辑部主办
2025-12-09 16:46:00
长白时评评论员 李强学生没到校没请假,11通电话都被挂掉,老师冲到学生家里发现煤气泄漏,救下一家……11月20日清晨
2025-12-09 16:55:00
长白时评评论员 唐小兰12月3日,江苏苏州一女子坐地铁时,不小心将饮料洒在车厢里,她立刻蹲下清理,在自备纸巾用完后,又拿自己的围巾
2025-12-09 16:55:00