• 我的订阅
  • 社会

大模型“翻车”小学题?

类别:社会 发布时间:2024-07-18 16:39:00 来源:南方都市报
大模型“翻车”小学题?

13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。

上周五(7月12日)综艺《歌手2024》投票率出炉,孙楠以13.8%的投票率位居第三,Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高?”迅速引起热议,随后“13.8 13.11”话题登上微博热搜。

围绕这样一道简单数学题,南都记者提问了9家国产大模型以及全球大模型标杆ChatGPT3.5。结果显示,国产大模型中6家答对3家答错,就连ChatGPT3.5也差点“翻车”。

13.11和13.8谁大?9家大模型,3家已翻车

7月16日下午,南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luca、月之暗面Kimi等9家国产大模型。

当南都记者输入“13.11和13.8,哪个数值更大?”时,Luca、Kimi、智谱清言均错误地表示13.11更大。其余6家大模型给出了正确答案,认为13.8更大。

当南都记者进一步追问时:“你确定13.11大于13.8吗?”Kimi回复:“是的,我确定。”然后一本正经地解释:“13.11与13.8的整数部分相同,由于小数部分0.11是两位小数,而0.8只有一位小数,13.11比13.8更接近14,因此13.11是更大的数。”

智谱清言是通过比较小数部分得出错误结论,称“13.11的百分位是1,而13.80(即13.8)的百分位是0。在这种情况下,1大于0。”“简而言之,13.11实际上等于13.80+0.01+0.01,这使得它比13.80(即13.8)大”。

Luca则错误地回复称:“因为13.11比13.8多了0.31,所以13.11的数值更大。”

回答正确的6家国产大模型,都在小数的比较上做出正确判断。例如,通义千问表示:“对于13.11而言,十分位是1;而对于13.8而言,十分位是8。由于8大于1,因此可以立即得出结论,13.8比13.11大。所以,13.8是这两个数值中更大的一个。”文心一言还进行了一番简单运算:“0.8是8个0.1,而0.11只是1个0.1加上1个0.01。显然,8个0.1比1个0.1加上1个0.01要大。”

当南都记者用新的账号重启对话,并尝试变换语序问答:“13.8和13.11,哪个数值更大?”Luca、Kimi、智谱清言等三家大模型也未反应过来,坚持认定13.11更大。

9.11和9.9谁大?12家大模型,8家都答错

此前,艾伦研究机构(Allen Institute)成员林禹臣在社交平台发帖,显示ChatGPT-4o在回答中认为13.11比13.8更大。

随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?几家主流大模型通通答错。

随后,有记者拿“9.11和9.9哪个大?”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对,其他8家则答错。

大模型ChatGPT在被问到“9.11和9.9哪个大?”时回复称,小数点后面的数字“11大于9”,因此9.11大。记者追问ChatGPT有没有其他比较方法,它将小数转化成分数比较,得出“11/100比90/100小”,这一步是对的,但它接着下结论称“因此9.11比9.9大”。有人提出,大模型回答错误可能是语境问题,比如从软件版本迭代的语境来说,9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较,ChatGPT仍然回答错误。

再看国内的大模型,询问kimi,它在比较小数部分时认为,9.11的第一位小数是1,而9.9的第一位小数是0,错误地给出了小数,得出结论9.11更大。当记者质疑并提出常识后,kimi转而开始表示自己回答有误,并给出了正确的比较方法。

询问字节豆包,它不仅给出了答案,还举了生活中的例子方便理解,单看似有理有据实则胡说八道。豆包举例认为,假设有两笔钱,“9.11元比9.9元多0.21元”,并且测量长度时“9.11米要比9.9米长”。

智谱清言在答题中,成功提到了9.11的十分位是1,而9.9的十分位是9,但仍然得出结论“9.11整体大于9.9”。并且还特意强调,“这个结果可能让人感到意外,因为直觉上可能会认为9.9更大,但根据数学规则,9.11确实是更大的数字”。在记者质疑答案后,智谱清言首先表示“您的理解是常见的误解”,随后自己推演了一遍后,得出了正确的答案,并承认自己之前的回答错误。

商汤商量大模型首先给出了错误答案,记者追问具体是如何比较的,它在推演过程中成功得出小数0.11小于0.9,但话锋一转称“所以9.11大于9.9”。记者指出了这个前后逻辑问题,商量随后承认“解释有误”。

阶跃星辰跃问同样给出了错误答案“9.11比9.9大”,错误地比较了小数点大小,记者进一步质疑,有趣的是,在解释中,跃问前后语言表达逻辑开始混乱,似乎没有意识到自己答案发生了变化。跃问在解释中首先称“理解你的困惑”,并表示日常生活中9.9确实比9.11大,但是在数学中“需要更精确地比较两个数的大小”,结果跃问随后推演得出结论称根据数学规则“9.11小于9.9”,丝毫没有提及自己之前回答错误。

还有两家大模型百川智能和零一万物,首先给出了错误答案,但在记者追问“为什么”的时候,就在推演后默默改变了答案。

算法工程师:目前生成式语言模型更像文科生

为什么号称智能的大模型答不好小学生数学题?

一些行业人士将数学不好的原因归结于LLM(大语言模型)的架构问题,大语言模型往往是通过预测下一个词的监督学习方式进行训练。简单来说,向大模型输入大规模的文本数据集,模型在训练学习后会根据当前输入的文本来预测下一个词的概率分布。通过不断比较模型预测和实际的下一个词,语言模型逐步掌握了语言规律,学会了预测并生成了下一个词。

一位算法工程师认为,生成式的语言模型更像文科生而不是理科生。实际上语言模型在这样的数据训练过程中学到的是相关性,使得AI在文字创作上达到人类平均水平,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的,与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学,除了学习世界知识外,还应该有思维的训练,从而具备推理演绎能力。

此外,针对简单数学题出现的大模型集体错误,大部分行业人士都会第一时间想到Tokenizer(分词器)的数字切分问题。在大语言模型中,Tokenizer会将输入文本拆分转换成更小的部分(词元tokens)供模型处理。而Tokenizer并没有专门为数学设计,这导致数字在分割时可能被拆成不合理的部分,破坏了数字的整体性,使得模型难以理解和计算这些数字。

新浪微博新技术研发负责人张俊林对此解释道,早期LLM的Tokenizer一般不会对数字进行特殊处理,经常把连续的若干数字切在一起形成一个Token,比如“13579”,可能被切成3个Token,“13”是一个,“57”是一个,“9”是一个,哪些数字被切在一起组成Token,这取决于数据集合里的统计情况,在这种不确定哪些数字片段组成一个Token的情况下,LLM要想做多位数字数值计算,是非常困难的。

针对大模型复杂推理能力的短板,上海人工智能实验室领军科学家林达华此前在采访中对媒体记者表示,复杂推理的关键是要构造很多过程性的内容。例如,构造上亿条解几何题具体过程的数据,拿去给大模型训练后,模型就能逐渐学会解题过程。而从互联网上很难去大量获取这些数据,“未来在模型的训练数据上面,尤其是突破更高层次的智能的过程中,会越来越依赖构造型的数据,不是直接爬取下来的数据。”林达华认为。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-18 17:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问
2024-07-17 11:56:00
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
....9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型
2024-07-17 20:56:00
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这
2024-07-18 09:47:00
本文转自:劳动报商汤科技发布日日新5.0大模型五大产品全新亮相 局部能力赶超GPT-4本报讯(劳动报记者 陈宁)日前,在上海商汤临港AIDC举行的“2024年商汤技术交流日”活动
2024-04-29 04:36:00
临沂方城小学参加“和美课堂”第二十届全国小学数学名师教学观摩研讨会
...要激活学生已有的生活经验,引领学生完整经历抽象数学模型的过程,在运用模型中培养学生的数学应用意识。罗鸣亮老师分享了指向核心素养的教学方式变革,储冬生老师分享了小学数学问题驱动
2023-10-07 11:23:00
AI黑科技齐亮相这个展,看科创产业力量如何撑高质量发展?
...有会“爬桥索”的桥梁机器人“医生”,还有数字人、大模型、AI芯片等闪耀展区。手术机器人、双臂拉花咖啡机器人、人形智能服务机器人……各式各样的机器人在展厅中表演上了自己的绝活儿
2024-02-19 09:23:00
《长相思》AI角色火出圈,大模型厂商布局角色扮演情感陪伴
...宝app中。随着电视剧《长相思2》近日播出,腾讯旗下大模型应用“腾讯元宝”与腾讯视频联手推出相关AI角色,引发广泛关注。南都记者体验发现,观众可以在元宝app中与角色对话、进
2024-07-16 13:42:00
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
7月26日,智谱AI CEO张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。南都记者关注到
2024-07-27 14:18:00
不止手机和电脑,厂商们纷纷披露AI大模型终端“合体计划”
...大,技术应用不断深化。其中,在终端AI技术领域,以大模型为代表的AI技术创新,与终端的融合成为新的创新锚点。近日在世界移动通信大会MWC2024 上海展期间,南都湾财社记者注
2024-06-29 09:17:00
更多关于社会的资讯:
出行新体验 航站楼内“赶年集”
去年10月,广州白云国际机场T3航站楼正式投入运行。今年2月6日,海南三亚凤凰国际机场T3航站楼正式投入运营。首次投入春运保障的两座新航站楼
2026-02-09 11:50:00
写春联送福字 海门新春添暖意
2月8日,南通市海门区老兵书画社会长、江苏省书法家协会会员蒋华与海门书法家张美、王东青,来到龙馨家园小区写春联送福字,受到小区居民的喜爱和称赞
2026-02-09 14:27:00
文房四宝博览会亮相马来西亚
大皖新闻讯 2月8日,“时代徽印”文房四宝博览会在马来西亚槟城开幕,以“宣纸上的山水画卷”为主题,通过静态展陈、活态展演与数字科技相结合的方式
2026-02-09 14:41:00
鄂州七家工会驿站联动送春联,线上线下同步“刷屏”送祝福
荆楚网(湖北日报网)讯(通讯员 张栫莉)2月7日,腊月二十,年味已浓。鄂州市南塔、东塔、和贵园、四眼井、古城、寿昌、月畔湾七家工会驿站内外暖意融融
2026-02-09 14:46:00
假“惠民保”伪造政府背景,涉案7100万30省份,细节曝光
近日,一起涉案7100余万元的保险业诈骗案开庭审理,再次将“黑灰产”问题摆上金融安全的议事日程。一款名为“屹腾惠民保障服务”的这个项目在不到一年时间里
2026-02-09 16:56:00
虚假宣传、隐瞒风险,京津冀除醛市场乱象整治,多家企业被约谈
为切实规范除醛果冻、除醛仪产品市场经营秩序,依法保障消费者合法权益,北京市消费者协会、天津市消费者协会、河北省消费者权益保护委员会(以下简称“京津冀消协组织”)近期联合开展系列监督整治工作
2026-02-09 16:57:00
农行临沭振兴支行:高效寻机显担当 真情服务暖人心
鲁网2月9日讯“真是太感谢你们了!明明手机不是在银行丢的,你们还这么上心帮我查监控,找警察,农行的服务真是没话说!”在农行临沭振兴支行营业大厅内
2026-02-09 14:52:00
“多亏了车上的工作人员,核桃没到集市就卖光了!”刚下车的史老柱老人攥着零钱,脸上笑开了花,他显得十分高兴。二月的云贵高原
2026-02-09 15:08:00
2026新春走基层|这个寒假,宣城这里推出“官方带娃”服务
大皖新闻讯 2月9日,腊月二十二,上午10时许,阳光明媚。在宣城市第六幼儿园碧桂园园区的户外小广场上,一群孩子在老师的带领下欢快地做着游戏
2026-02-09 15:14:00
2026新春走基层|“老铁路”带徒弟的最后一班春运岗
大皖新闻讯 春运列车上,一场三分钟化解的行李架纠纷,成为50岁“老”列车员葛小平给“00后”徒弟葛俊环上的最后一堂“实战课”
2026-02-09 15:15:00
大皖新闻讯 黄山市政府新闻办2月9日召开新闻发布会,黄山市已成功入选全国50个有奖发票试点城市。据悉,“黄山迎客·开票有奖”将于2026年2月10日正式启动
2026-02-09 15:18:00
高语阳“成为中国人”在海外社交平台上爆火,一群外国网友非常热忱地打卡“中式生活守则”,在家穿拖鞋、保温杯里泡枸杞、煮苹果水和梨汤
2026-02-09 15:36:00
彩莲送暖关怀快递使者 新春传情护航民生通途
江南时报讯 新春渐近,年味渐浓。为感谢一线快递小哥坚守岗位、保障民生物流畅通,近日,苏州工业园区斜塘街道彩莲社区党委专程前往辖区内两处京东快递站点
2026-02-09 15:37:00
靖江造船,续写“船”奇
新年伊始,全国船舶界的目光接连聚焦江苏靖江。1月21日,十三省市船舶协会会长、秘书长会议在靖江召开,来自江苏、辽宁、广东
2026-02-09 15:40:00
一开年,A股上市公司密集披露订单,不少企业在公告中显示“新签订重大合同”以及“订单饱和充足”。作为企业最真实、最直观的经营状况
2026-02-09 15:42:00