我的订阅
社会

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

9.11比9.9大？多个大模型翻车！业内人士：就是偏科，文科强理科弱

类别：社会发布时间：2024-07-17 20:56:00 来源：当代先锋网

近日，在新一期的《歌手》节目中，孙楠与外国歌手的微小分数差异，引发了网友关于13.8%和13.11%谁大谁小的争论。

有网友竟给出“13.11%大于13.8%”的错误答案。当时就有网友提出，自己不会的话，“实在不行问问AI呢”？结果显示，不少AI还真的不行。

第一财经记者拿“9.11和9.9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型，包括阿里、百度等5家大厂模型，月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对，其他8家则答错。

首先是目前全球公认第一梯队的大模型ChatGPT，在被问到“9.11和9.9哪个大”时回复称，小数点后面的数字“11大于9”，因此9.11大。

记者追问ChatGPT有没有其他比较方法，它将小数转化成分数比较，得出 “11/100比90/100小”，这一步是对的，但它接着下结论称“因此9.11比9.9大”。

大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现，他在X平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题，但另一方面常识依旧很难。”他表示。

这类大模型说胡话的现象，在业界被称为大模型出现幻觉。此前，哈尔滨工业大学和华为的研究团队发表的综述论文认为，模型产生幻觉的三大来源：数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式，如位置接近性、共现统计数据和相关文档计数，从而导致幻觉。此外，大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

值得一提的是，此前，“Al高考测试最高分303”话题也曾火上热搜，引发了社会各界对AI教育能力的深入思考和讨论。

以数学试卷为例，9款大模型产品中，仅GPT-4o、文心一言4.0和豆包获得60分以上成绩（满分150分），目前的大模型只能正确推理步骤相对简单的问题。

与人类顶尖考生相比，大模型在数学、物理、化学等数理学科上差距极大，包括GPT-4o在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分，大模型的理科最好成绩还无法进入人类考生的前30%。

针对大模型答数学题普遍“吃瘪”的问题，国内某头部大模型负责人就曾表示，大模型的指令遵循或者说推理能力通常是把一个指令背后的意思拆解出来，但数学题既包含规则性，又包含对各种思维的考察，解题逻辑和正常用大模型时的推理逻辑不一定完全一样。

同时该负责人还提到，从更广泛的大模型应用角度来看，AI能不能精准遵循指令是近一段时间内比较重要的事情，真正的商业价值也比较大可能来自于此，而解数学题对目前的AI来说还是一件比较“炫技”的事情。

另有业内人士向南都记者表示，目前来看大模型的数理能力相对较差的情况在中外都是一样的，“打个比方可以这样讲，大模型就是偏科，文科强理科弱，这个情况在一段时间内也不会得到明显的改善”。

来源北京商报

编辑王小婷

二审杨韬

三审刘丹

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-07-18 05:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于理科,文科,业内人士,模型,业内,多个的资讯：

大模型像“文科生”？业内人士在沪“论战”

...上海站活动上，不仅网友在线上看直播时发出质疑声，连业内人士也“吵”起来了。4月14日，“知乎AI先行者沙龙”上海站活动在沪举行。中新网记者郑莹莹摄在浙江大学计算机学院研究

2024-04-15 22:01:00

数学不太好的文科生

本文转自：鲁中晨报专家点评GPT-4:数学不太好的文科生业内人士如何看待这个多模态预训练大语言模型?记者采访了上海交通大学教授、自然语言处理专家赵海。“读图编程”表演令人惊艳赵海

2023-03-16 09:23:00

AI大模型参加高考 GPT-4o文科成绩最好理科普遍不行

...考试中，最高分仅为29分，由GPT-4o和百小应获得。不过在理科方面，大模型的水平相比人类顶尖考生的差距就有点过大了。大模型的理科最高分还不到480分，多数大模型的理科总分在

2024-06-27 19:06:00

让AI去高考，豆包等四款大模型考上文科“一本”

...测试中的得分冲上了“一本”线。与文科相比，大模型的理科成绩要差很多，最高分还不到480分，多数大模型的理科总分在400分以下，数学普遍不及格，相比河南理科511分的“一本”线

2024-06-26 11:14:00

这一职业，突然爆火！简历刚投，就被“抢光”……

...节后至今，数据标注类岗位招聘职位数量同比增长达56%。业内人士表示，随着大语言模型的快速发展，以及涉及的领域越来越多，人工智能训练师的需求还会继续增加。人工智能训练师：数字时

2025-03-31 07:58:00

当小白花进攻硅谷，马斯克们疯狂颤抖？

...适合这个领域，天花板不高。特别是在东亚人的思维中，理科代表逻辑，文科代表情绪。而这几年AI迅速崛起，全球都在卷科技，文科无用论又成为互联网导向了。说文科正在世界内消亡的，说文

2024-12-31 12:34:00

别只盯着复旦！全国文科招生已“偷偷”锐减，多省录取率惨淡

...科生的报考比例、招生比例都下降了10%左右，录取率仅有理科生的一半。随着复旦大幅度缩减文科生招生计划，冲锋号响了，相信文科生减少会更加迅猛。01复旦也扛不住了最近复旦大学缩减

2025-03-29 17:29:00

GPT-4下岗了，上海高校和企业用DeepSeek开发大模型

...。赵海解释：“过去，ChatGPT等大模型像文科生，不擅长理科和逻辑推理。而对人类智慧来说，最底层的智慧是逻辑，逻辑之上是数学，再上面是物理、化学等科学。”去年9月，Open

2025-01-29 21:29:00

业内人士谈医疗行业智能化：隐私计算护航AI医疗新时代

本文转自：中国经济网来源：中国经济网医疗一直都是人工智能应用的重要领域，人工智能已经在过去几年内陆续落地，并在病历书写、报告生成、病例归纳、辅助决策、论文润色等医疗场景内取得了广

2023-07-07 17:23:00

更多关于社会的资讯：

返程高峰来了今明两天厦门高速这些路段易拥堵

厦门网讯（厦门日报记者王玉婷许晓婷通讯员余丽清）今明两天，厦门高速持续迎来返程高峰，请司机朋友们提前规划好时间和路线

2025-10-07 08:00:00

全省高速公路迎来返程高峰如遇拥堵这样绕行

10月7日至8日，全省高速公路迎来返程高峰，特别是8日10时至21时返程流量将较为集中。加之未来几天，全省会有分布不均的降雨

2025-10-07 06:54:00

央媒看太原｜千年晋祠迎来客流高峰

央媒看太原10月3日，央视《新闻直播间》以《千年晋祠迎来客流高峰加强服务保障》为题，报道了进入国庆中秋假期，古建热不断升温

2025-10-06 07:11:00

社区推出花式“中秋礼” 温暖异乡人

情系国庆月满中秋双节假期，不少人返乡探亲，但也有不少异乡人，因为种种原因，中秋无法与家人团聚。连日来，我市多个社区组织了迎中秋活动

2025-10-06 07:42:00

福建尤溪县坂面镇5名人员进入废弃矿硐遇难

华商网讯福建省尤溪县人民政府办公室10月5日发布消息，10月5日9时50分许，尤溪县消防救援局接警，5名人员进入坂面镇一矿山企业的废弃矿硐

2025-10-06 08:12:00

两名女生跟网友上山“探险”被困山谷救援队助她们脱险

救援队员找到两名被困女生。（十方应急救援队供图）厦门网讯（厦门日报记者王玉婷许晓婷）树林茂密、毒蛇出没，两名女生跟着40多名网友上山“探险”

2025-10-06 08:50:00

琴动鼓浪屿声传海内外第十四届鼓浪屿钢琴艺术周获《人民日报》

艺术周吸引众多国际友人参加，图为国际友人和市民游客一起观看庭院音乐会。（供图/鼓浪屿管委会）厦门网讯（厦门日报记者朱道衡）国庆中秋假期

2025-10-06 08:50:00

“人民必胜——中俄美术作品展”是用艺术的方式诠释“正义必胜，

近日，“人民必胜——纪念中国人民抗日战争、苏联卫国战争暨世界反法西斯战争胜利80周年中俄美术作品展”在长春美术馆开展。中国美术家协会油画艺委会副主任张路江出席开展仪式并致辞

2025-10-06 09:17:00

大厂：“老字号”与“新网红”齐飞月饼市场热闹开“抢”

河北新闻网讯（杨迪）国庆、中秋“双节”到来之际，大厂月饼进入销售旺季。各种口味丰富、包装精美的月饼成为市场主角，为节日增添了浓厚氛围

2025-10-06 10:14:00

国庆中秋假期护娃“睛”！河南小儿眼科权威熊凤枝教授：早发现早

大河网讯国庆长假来临，不少家长计划带娃出游、居家休闲，但孩子长时间看屏幕、户外用眼不当等问题，也让儿童眼健康成为假期关注焦点

2025-10-06 12:53:00

怀化文旅回应晓华理发店热度下降：很难回到巅峰期，但比爆火前经

大皖新闻讯日前，江西景德镇“鸡排哥”走红，国庆期间现场打卡的游客络绎不绝。与此同时，2024年爆火的湖南怀化“晓华理发店”热度下降也成了广大网民热议的话题

2025-10-06 16:00:00

AI视频｜来唐山共赏中秋盛世风华

视频提供｜唐山投控(文旅)集团

2025-10-06 17:02:00

“医”路援疆情白衣走天山

当国庆的红旗漫卷天山，中秋的明月照亮晋疆，有一群医务工作者正以坚守代替归乡。近年来，我省全面开展组团医疗援疆，协调派出省内优秀医务人才

2025-10-06 18:31:00

中秋此乡亦故乡！六安一驾校为300余名异地学员摆下30桌团圆

大皖新闻讯中秋节是一个合家团圆的日子，但来自河南、四川等地的300余名学员为了不耽误所在驾校的训练，选择在六安过节，而驾校充分理解他们的思乡之情

2025-10-06 21:46:00

毫厘之间见匠心岳西工人好手艺造出好国徽

大皖新闻讯桂花香里，金属铿锵。为天安门城楼制作新国徽的安徽兴皖玻璃钢制品有限公司门头上，一幅巨型国徽高高矗立，工人们在这枚国徽的“注视”下

2025-10-06 21:50:00

头条订阅服务

9.11比9.9大？多个大模型翻车！业内人士：就是偏科，文科强理科弱