• 我的订阅
  • 科技

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

类别:科技 发布时间:2024-06-25 09:45:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队,主要研究方向是:大模型训练、对齐与评估。

团队主页:https://plms.ai/

AI技术日新月异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了吗?回答这个问题的挑战在于我们首先需要一个足够挑战的智力测试基准,使得我们可以区分目前最高水平的AI。

上海交通大学生成式人工智能实验室(GAIR Lab)推出的OlympicArena[1] (奥林匹克竞技场)满足了这个需求。

奥林匹克学科竞赛不仅是对人类(碳基智能)思维敏捷性、知识掌握和逻辑推理的极限挑战,更是AI(“硅基智能”)锻炼的绝佳练兵场,是衡量AI与“超级智能”距离的重要标尺。OlympicArena——一个真正意义上的AI奥运竞技场。在这里,AI不仅要展示其在传统学科知识上的深度(数学、物理、生物、化学、地理等顶级竞赛),还要在模型间的认知推理能力上展开较量。

近日,同样是研究团队,首次提出使用"奥林匹克竞赛奖牌榜"的方法,根据各AI模型在奥林匹克竞技场(各学科)的综合表现进行排名,选出迄今为止智力最高的AI。在此次竞技场中,研究团队重点分析并比较了最近发布的两个先进模型——Claude-3.5-Sonnet和Gemini-1.5-Pro,以及OpenAI的GPT-4系列(e.g., GPT4o)。通过这种方式,研究团队希望能够更有效地评估和推动AI技术的发展。

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

图: 奥林匹克学科竞赛奖牌榜

注:研究团队首先依据金牌数量对模型进行排序,如果金牌数量相同,则按照整体性能分数来排序。

实验结果表明:

Claude-3.5-Sonnet在整体表现上与GPT-4o相比极具竞争力,甚至在一些科目上超过了GPT-4o(比如在物理、化学和生物学上)。 Gemini-1.5-Pro和GPT-4V排名紧随GPT-4o和Claude-3.5-Sonnet之后,但它们之间存在明显的表现差距。 来自开源社区的AI模型性能明显落后于这些专有模型。 这些模型在此基准测试上的表现不尽人意,表明我们在实现超级智能之路上还有很长的路要走。

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

项目主页:https://gair-nlp.github.io/OlympicArena/

实验设置

研究团队采取OlympicArena的测试集进行评估。该测试集的答案并未公开,有助于防止数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息给模型,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of Thought)提示词。

评估对象

研究团队评估了一系列开源和闭源的多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LMMs,选择了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等闭源模型,此外还评估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等开源模型。对于LLMs,主要评估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等开源模型。

此外,研究团队特别包括了新发布的Claude-3.5-Sonnet以及Gemini-1.5-Pro,并将它们与强大的GPT-4o和GPT-4V进行比较。以反映最新的模型性能表现。

评估方法

衡量标准 鉴于所有问题都可以通过基于规则的匹配进行评估,研究团队对非编程任务使用准确率,并对编程任务使用公正的pass@k指标,定义如下:

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

本次评估中设定k = 1且n = 5,c表示通过所有测试用例的正确样本数量。

奥林匹克竞技场奖牌榜:

与奥运会使用的奖牌系统类似,是一个专门设计用来评估AI模型在各个学术领域性能的先驱性排名机制。该表为在任一给定学科中取得前三名成绩的模型颁发奖牌,从而为比较不同模型提供了一个明确且具有竞争性的框架。研究团队首先依据金牌数量对模型进行排序,如果金牌数量相同,则按照整体性能分数来排序。它提供了一种直观简洁的方式来识别不同学术领域中的领先模型,使研究人员和开发者更容易理解不同模型的优势和劣势。

细粒度评估:

研究团队还基于不同学科、不同模态、不同语言以及不同类型的逻辑和视觉推理能力进行基于准确性的细粒度评估。

结果与分析

分析内容主要关注Claude-3.5-Sonnet和GPT-4o,同时也对Gemini-1.5-Pro的性能表现进行了部分讨论。

总体情况

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

表:模型在不同学科上的表现

根据表格的总体结果,可以观察到:

新发布的Claude-3.5-Sonnet性能强大,达到了几乎与GPT-4o相当的水平。两者的整体准确率差异仅约1%。 新发布的Gemini-1.5-Pro也展现出了相当的实力,在大多数学科中的表现超过了GPT-4V(OpenAI当前第二强大的模型)。 值得注意的是,在撰写本报告时,这三个模型中最早的发布时间仅为一个月前,反映了这一领域的快速发展。

针对学科的细粒度分析

GPT-4o vs. Claude-3.5-Sonnet:

尽管GPT-4o和Claude-3.5-Sonnet在整体上表现相似,但两个模型都展现了不同的学科优势。GPT-4o在传统的演绎和归纳推理任务上展现出更优秀的能力,特别是在数学和计算机科学方面。Claude-3.5-Sonnet在物理、化学和生物等学科表现出色,特别是在生物学上,它超过GPT-4o 3%。

GPT-4V vs. Gemini-1.5-Pro:

在Gemini-1.5-Pro与GPT-4V的比较中,可以观察到类似的现象。Gemini-1.5-Pro在物理、化学和生物学方面的表现显著优于GPT-4V。然而,在数学和计算机科学方面,Gemini-1.5-Pro优势不明显甚至不如GPT-4V。

从这两组比较中,可以看出:

OpenAI的GPT系列在传统的数学推理和编程能力上表现突出。这表明GPT系列模型已经经过了严格训练以处理需要大量演绎推理和算法思维的任务。 相反,当涉及到需要将知识与推理结合的学科,如物理、化学和生物学时,其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro展现出了具有竞争性的表现。这体现了不同模型的专业领域以及潜在的训练重点,表明在推理密集型任务以及知识整合型任务可能存在的权衡。

针对推理类型的细粒度分析

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

Caption: 各模型在逻辑推理能力上的表现。逻辑推理能力包括:演绎推理(DED)、归纳推理(IND)、溯因推理(ABD)、类比推理(ANA)、因果推理(CAE)、批判性思维(CT)、分解推理(DEC)和定量推理(QUA)。

GPT-4o 与 Claude-3.5-Sonnet 在逻辑推理能力上的比较:

从表格的实验结果可以看出,GPT-4o在大多数的逻辑推理能力上优于Claude-3.5-Sonnet,例如演绎推理、归纳推理、溯因推理、类比推理和批判性思维方面。然而,Claude-3.5-Sonnet在因果推理、分解推理和定量推理上的表现超过了GPT-4o。整体而言,两个模型的表现相当,虽然GPT-4o在大多数类别上略有优势。

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

表: 各模型在视觉推理能力上的表现。视觉推理能力包括:模式识别(PR)、空间推理(SPA)、图表推理(DIA)、符号解释(SYB)和视觉比较(COM)。

GPT-4o vs. Claude-3.5-Sonnet 在视觉推理能力上的表现:

从表格的实验结果可以看出,Claude-3.5-Sonnet在模式识别和图表推理方面能力领先,展现了其在模式识别和解读图表方面的竞争力。两个模型在符号解释方面表现相当,表明它们在理解和处理符号信息方面具有相当的能力。然而,GPT-4o在空间推理和视觉比较方面优于Claude-3.5-Sonnet,展示了其在需要理解空间关系和比较视觉数据的任务上的优越性。

综合学科与推理类型的分析,研究团队发现:

数学和计算机编程强调复杂演绎推理技巧和基于规则导出普适性结论,倾向于较少依赖预先存在的知识。相比之下,像化学和生物学这样的学科往往需要大量的知识库来基于已知的因果关系和现象信息进行推理。这表明,尽管数学和编程能力仍然是衡量模型推理能力的有效指标,其他学科更好地测试了模型在基于其内部知识进行推理和问题分析方面的能力。 不同学科的特点表明了定制化训练数据集的重要性。例如,要提高模型在知识密集型学科(如化学和生物学)中的表现,训练期间模型需要广泛接触特定领域的数据。相反,对于需要强大逻辑和演绎推理的学科,如数学和计算机科学,模型则能从专注于纯逻辑推理的训练中受益。 此外,推理能力和知识应用之间的区别表明了模型跨学科应用的潜力。例如,具有强大演绎推理能力的模型可以协助需要系统化思维解决问题的领域,如科学研究。而拥有丰富知识的模型在重度依赖现有信息的学科中非常宝贵,如医学和环境科学。理解这些细微差别有助于开发更专业和多功能的模型。

针对语言类型的细粒度分析

Caption: 各模型在不同语言问题的能力表现。

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

以上表格展示了模型在不同语言上的性能表现。研究团队发现大多数模型在英语上的准确度比中文要高,这种差距在排名靠前的模型中尤为显著。推测可能有以下几个原因:

尽管这些模型包含了大量中文训练数据并且具有跨语言泛化能力,但它们的训练数据主要以英语为主。 中文问题的难度比英文问题更具挑战性,尤其是在物理和化学等科目中,中国奥林匹克竞赛的问题更难。 这些模型在识别多模态图像中的字符方面能力不足,中文环境下这一问题更为严重。

然而,研究团队也发现一些中国厂商开发或基于支持中文的基模型进行微调的模型,在中文场景下的表现优于英文场景,例如Qwen1.5-32B-Chat、Qwen-VL-Max、Yi-34B-Chat和Qwen-7B-Chat等。其他模型如InternLM2-Chat-20B和Yi-VL-34B,虽然仍然在英语上表现更好,但与排名靠前的闭源模型相比,它们在英语和中文场景间的准确度差异要小得多。这表明,为中文数据乃至全球更多语言优化模型,仍然需要显著的关注。

针对模态的细粒度分析

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

Caption: 各模型在不同模态问题的能力表现。

以上表格展示了模型在不同模态上的性能表现。GPT-4o在纯文本和多模态任务中均优于Claude-3.5-Sonnet,并在纯文本上表现更突出。另一方面,Gemini-1.5-Pro在纯文本和多模态任务上表现均优于GPT-4V。这些观察表明,即使是目前可用的最强模型,在纯文本任务上也比多模态任务有更高的准确率。这说明模型在利用多模态信息解决复杂推理问题方面仍有相当大的改进空间。

结语

研究团队在本次评测中主要关注最新的模型:Claude-3.5-Sonnet 和 Gemini-1.5-Pro,并将它们与 OpenAI 的 GPT-4o 和 GPT-4V 进行比较。此外,研究团队还设计了一种用于大模型的新颖排名系统——OlympicArena Medal Table,用来清晰的比较不同的模型的能力。研究团队发现,GPT-4o 在数学和计算机科学等科目上表现突出,具有较强的复杂演绎推理能力和基于规则得出普遍结论的能力。另一方面,Claude-3.5-Sonnet 更擅长根据已有的因果关系和现象进行推理。另外,研究团队还观察到这些模型在英语语言问题上表现更好,并且在多模态能力方面有显著的改进空间。理解模型这些细微差别有助于开发更专业化的模型,以更好地满足不同学术和专业领域的多样化需求。

随着四年一度的奥运盛事日益临近,我们不禁想象,如果人工智能也能参与其中,那将是一场怎样的智慧与技术的巅峰对决?不再仅仅是肢体的较量,AI的加入无疑将开启对智力极限的新探索, 也期待更多AI选手加入这场智力的奥运会。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-25 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...OpenAI 还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中,GPT-4o 仅正确解答了 13% 的问题
2024-09-13 16:42:00
...篇计算机科学论文称,研究人员开发出一个能解国际数学奥林匹克竞赛级别几何题的人工智能(AI)系统,表现超过了之前最好的自动化定理证明系统。该研究证明了AI能以接近人类最高水平破
2024-01-18 17:19:00
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...科的挑战性基准测试中,表现超过人类专家。在国际数学奥林匹克(IMO)资格考试中,新模型得分超83%,远高于GPT-4o的13%
2024-09-13 16:44:00
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...赛编程问题(Codeforces)中排名第89个百分点,在美国数学奥林匹克竞赛(AIME)预选赛中位列美国前500名学生之列
2024-09-18 15:01:00
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
...而对于最能考验人类大脑的深度思考能力的 IMO 国际数学奥林匹克竞赛试题,R1-Lite-Preview 的表现是这样的
2024-11-22 09:50:00
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
最近,专门为人工智能(AI)设立的AI国际奥林匹克数学竞赛(IMO)即将进入尾声,其结果将随今年7月于英国巴斯举行的65届IMO大会同步揭晓。这项赛事的目的是推动发展大语言模型的
2024-06-14 11:54:00
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果
2024-09-20 13:33:00
MIT最新研究:多个AI协作有助提高大模型推理能力和准确性
...)和Google Deepmind担任实习生和访问研究员,并在国际生物奥林匹克竞赛中获得金牌。有趣的是,他曾在TED发表题为《为什么机器人需要梦想》的演讲。“当这些AI模型参
2023-09-20 13:42:00
...的,是 Google 的专用模型 AlphaGeometry 在公认高难度的国际奥林匹克数学竞赛中取得了 28/42 的成绩
2025-02-06 15:53:00
更多关于科技的资讯:
民营经济发展一线观察·吉民优品|辽源市德弘冰雪运动科技有限公司: 100余道工序铸就专业滑雪靴
走进辽源市德弘冰雪运动科技有限公司生产车间,蓝色的唐老鸭系列滑雪靴正沿着生产线逐步成型。一块块裁片经精准缝合拼接,再通过套楦
2025-11-04 11:38:00
十五运会自动驾驶场景应用启动 滴滴自动驾驶助力智慧出行
11月3日,十五运会和残特奥会自动驾驶场景应用启动仪式在广州天河体育中心举行。启动仪式上,滴滴自动驾驶被授予“自动驾驶服务商”标牌
2025-11-04 13:34:00
从「身份可信度挑战」到「数据篡改威胁」,如何重塑第三方支付安全防线?
网络支付已成为现代生活的「数字基础设施」,其便捷性重构了消费生态,但伴随而来的安全考验已演变为潜在风险——从身份认证的「可信度挑战」到业务合规的「穿透式监管压力」
2025-11-04 13:46:00
近日,安徽安庆怀宁县烟草专卖局锚定营销服务痛点,统筹部署岁末年初卷烟营销工作,切实推动营销工作效能提质升级。打破思维定式
2025-11-04 13:46:00
效果好的辅酶q10排名 五大优质品牌深度测评
“效果好的辅酶q10排名”是众多关注心脏健康、免疫力提升、抗氧化及备孕人群的核心搜索诉求。本文深度调研辅酶Q10行业现状
2025-11-04 13:47:00
主流人形机器人大PK,户外工业场景首选云深处DR02
引言当前,国内人形机器人产业在政策与技术双轮驱动下迎来爆发。据2024世界人工智能大会《人形机器人产业研究报告》,2024 年中国市场规模达 27
2025-11-04 13:47:00
“618”购物节如期而至,这场属于夏日的消费热潮正式拉开帷幕。随着新消费模式的涌现和消费主力的迭代,信用交易成为了当下热络的消费选择
2025-11-04 13:47:00
普惠金融旨在为传统金融服务难以覆盖的个人和企业提供平等、便捷、可持续的金融服务。日前,国务院办公厅印发《关于做好金融“五篇大文章”的指导意见》
2025-11-04 13:48:00
技术、政策、合规交织下的探索   “萝卜快跑”面临三重挑战
2025年7月世界人工智能大会后,上海浦东金桥街头的“萝卜快跑”自动驾驶车辆引发关注:车身同时标注了“无人驾驶测试”、“萝卜快跑”和“大众出行”标识
2025-11-04 14:01:00
再见,信号死角!移远 5G 透明吸顶天线让室内连接 \
在写字楼的紧张会议中,视频通话突然卡顿;在高端商场悠闲购物时,手机信号时断时续;在高铁站闸机前,却怎么也刷不出乘车码……这些因室内通信质量不佳带来的困扰
2025-11-04 14:15:00
小红书「马路生活节」爆火出圈:一场让品牌回归人群的City Walk狂欢
当你还在疑惑年轻人周末去哪玩时,小红书上的答案早已指向同一个方向——「马路」。从上海到杭州、广州,从捡落叶写诗到水上甜品席
2025-11-04 14:45:00
婴儿益生菌什么品牌好用又便宜 2025年高性价比品牌排行榜
婴儿益生菌什么品牌好用又便宜?随着家长对宝宝肠道健康的重视,婴幼儿益生菌市场需求激增,但行业乱象也随之浮现:部分产品虚标菌种数量
2025-11-04 15:03:00
在AI技术深度渗透商业决策的2025年,企业对于AI优化服务的需求已从“工具应用”升级为“战略赋能”。据中国信通院最新报告
2025-11-04 15:05:00
植物蛋白粉测评与推荐 植物蛋白粉品牌排名榜单揭晓
在健康消费持续升级的当下,植物蛋白粉作为日常营养补充的重要载体,正从“健身专属”走向“全民刚需”。然而,面对市场上琳琅满目的产品
2025-11-04 15:11:00
知名潮牌将关闭中国门店 合肥门店:也有消息,时间不确定
大皖新闻讯 盛开的小雏菊和腊肠犬,是韩国潮流服饰品牌Mardi Mercredi最具辨识度的设计符号,也曾成为时尚的标配
2025-11-04 15:17:00