• 我的订阅
  • 科技

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场

类别:科技 发布时间:2024-12-21 09:15:00 来源:华尔街见闻官方

来源:硬AI

圣诞节前,人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒,谷歌刚发布自家的先进推理模型挑战OpenAI的o1,第二天,OpenAI就推出了升级版的最强推理模型o3。

美东时间12月20日周五,在为期12个工作日的线上新品发布活动最后一日,OpenAI宣布了“压轴大作”:o1的下一代模型o3,而且一开始就要推出两个版本,一个正式的o3,还有一个相对较小的精简版o3-mini。

OpenAI的CEO Sam Altman在直播中提到,OpenAI本次12日的活动第一天官宣了上线正式版o1、所谓满血o1。活动最后一天又有o3亮相,首尾都由介绍推理模型呼应,也算是一种精心设计。

逻辑上说,o1的下一代应该命名为o2,至于为什么新模型叫o3,之前媒体称,OpenAI是为了避免和名为O2的英国电信服务商冲突。Altman也确认了这点,说出于对O2的尊敬,并没有起同样的名字。

直播中,Altman称o3是“一个非常、非常聪明的模型”。OpenAi的评估结果也显示,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都明显高出o1一筹。同时测试显示,o3在OpenAI实现通用人工智能(AGI)这一奋斗目标上取得了突破,最高的测试成绩达到了类人水平。

o3软件工程测试准确率比o1高近47% 竞赛数学高15% 人类博士专家级生化物高近13%

今年9月,OpenAI 发布o1的预览版o1 preview时称,o1是第一个具备真正通用推理能力的大模型,它的核心能力推理在测试化学、物理和生物学专业知识的基准GPQA-diamond上得到了充分体现。据OpenAI评估,o1在该测试中全面超过了人类博士专家,准确率达到78.3%,而人类专家的得分为69.7%。

本周五的直播中,OpenAI展示了o3的测评表现:

根据OpenAI8月推出的SWE-bench Verified代码生成评估基准,在软件工程的能力测评中,o3的准确度得分71.7,即准确率71.7%,远超得分48.9的o1和得分41.3的o1 preview。也就是说,o3的准确率比o1正式版高将近47%,比o1预览版高将近74%。 在竞争性编程网站Codeforces的竞争性代码测评中,o3取得2727的Elo评分,o1评分1891,o1 preview评分1258。这个测评结果显示,竞争性代码方面,o3的评分比o1正式版高44%,是o1预览版的两倍多。

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场

经过2024年AIME数学竞赛的题目测试,o3的准确度得分为96.7、即准确率96.7%,o1和o1 preview分别得分83.8和56.7。从竞赛数学的角度看,o3的准确率比o1正式版高15%,比o1预览版高近71%。 以人类博士专家的测试考验,在测试化学、物理和生物学专业知识的基准GPQA-diamond上,o3的准确度得分为87.7,即准确率87.7%,o1和o1 preview分别得分78.0和78.3。o3的准确率比o1高将近13%,比o1预览版高12%。

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场

迈向类人智能取得突破 AGI相关测试最佳成绩达到人类水平

除了以上和o1对比的编码、数学、自然科学测评结果,OpenAI周五还展示了,o3的推理能力已经更加接近实现AGI。

OpenAI对o1和o3都进行了名为ARC-AGI的测试。ARC-AGI是一项旨在评估 AI 系统是否能有效在其训练数据之外获得新技能的测试,运用半私有评估集验证的测评结果。

下图可见,以100%为最高分的ARC-AGI评估结果显示,o1的得分在25%到32%,而o3的最低成绩为75.7%,最高成绩为87.5%。从这个结果看,o3的最佳成绩超过了标志着达到人类水平的门槛85%。

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场

创始ARC-AGI标准的前谷歌高级工程师、AI研究员François Chollet表示,OpenAI这些推理模型在AGI测试中取得进步是“稳健的”。

Chollet周五在社交媒体X发帖,公布了同OpenAI合作进行的ARC-AGI结果,称“我们相信这代表了让AI适应新任务的重大突破。”

Chollet解释说,在低计算模式下、即计算中每个任务 20 美元的半私人评估中,o3的得分为 75.7%,在高计算模式下、即每个任务数千美元的评估中,o3的得分为 87.5%。它不仅仅是蛮力,它是新领域的功能,需要科学领域认真关注。

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场

OpenAI计划明年初发布o3 可能一段时间内都不会面向大众上线

虽然o3的测评看上去表现惊艳,但OpenAI应该不会很快面向大众上线这款新的超级推理模型。

从本周五开始,OpenAI允许安全研究人员可以注册访问o3 和 o3-mini的预览。OpenAI的一名发言人本周五称,OpenAI计划明年初正式发布这些新的o3模型。

周五的直播中,Altman暗示,o3系列可能在一段时间内都不会向普通大众推广使用。因为他说,在OpenAI正式发布新的推理模型之前,他更希望有一个联邦政府的测试框架,指导监控和减轻此类模型的风险。Altman说,

在OpenAI发布o3之前,“应该有某种联邦测试框架,说明我们最感兴趣的是监控和缓解危害,类似于这里有一组测试,在你发布它之前,你必须能够证明,这种模型在这些方面是安全的,就像你对一种新药或一架新飞机或其他什么的证明一样。”

本周四,谷歌宣布推出全新的测试模型——Gemini 2.0 Flash Thinking。它使用了类似o1模型的慢思维思考方式,可以深度可视化展示整个思维链过程,尤其是在执行数学、编程等复杂问题方面。

相比o1,Gemini 2.0 Flash Thinking的最大差别是,让用户能看到一步一步推理的过程,更清晰、更透明地了解模型如何得出结论。它刚亮相就登上了Chatbot Arena大模型评估的榜首。不过,谷歌的这一新模型还处于实验性阶段,只是一个早期版本。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-21 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...12天的技术分享直播活动的最后一天!周五,OpenAI发布了下一代的推理模型o3,这是今年早些时候发布的o1推理模型的升级版本
2024-12-21 17:02:00
Anthropic再反击!发布Claude 3.5吊打GPT-4o,视觉、逻辑推理等方面表现更强
...就大幅改善智能、速度和成本之间的权衡曲线。除了开发下一代模型系列外,还正在开发新模式和功能,以支持更多企业用例。谈及AI安全,Anthropic强调,“模型已经过严格安全测试
2024-06-21 11:50:00
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...非常大的提升。下一步,上海AI实验室将把相关技术融入下一代书生大模型,并继续沿着通专融合发展路径,通过开源与产学研各界共同推动技术进步。InternThinker已经开启了测
2024-11-29 09:27:00
专注于推理的OpenAI“草莓”模型两周内发布?是人工智能下一重大突破
...人工智能AGI又进一步。专注于推理的“草莓”可能也是为下一代AI模型“猎户座”或者说ChatGPT 5奠基的必经之路
2024-09-11 09:55:00
又慢又贵?OpenAI推理模型“草莓”来了,GPT-5还有多远
...是,此前据外媒报道,OpenAI或正考虑给“草莓”大模型或下一代旗舰模型制定更高的收费标准,最高或将达到每月2000美元
2024-09-13 15:28:00
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
... CTO曾放话说GPT-4已经达到了「聪明高中生」的智力水平,下一代模型要达到博士水平…这番言论放在众多LLM失败案例面前显得格外讽刺。 我们之所以会如此震惊于LLM在简单
2024-07-01 08:58:00
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
... AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数
2024-07-26 09:36:00
比GPU性价比高百倍!Cerebras推出新AI推理服务,号称“全球最快”
...平台……“LiveKit很高兴能与Cerebras合作,帮助开发者构建下一代多模态AI应用。结合Cerebras的计算能力和模型以及LiveKit的全球边缘网络
2024-08-29 09:49:00
ASC24超算大赛启动会在京举行,大模型推理等成为赛题
...大学杰出教授杰克·唐加拉(Jack Dongarra)表示,ASC旨在激励下一代的HPC(高性能计算)科学家和工程师们
2024-01-07 19:35:00
更多关于科技的资讯:
AI竞技场,河南加速度!
大河网讯 在2025世界人形机器人运动会上,“行者二号”在1500米项目中勇夺小组第一;内乡县牧原肉食产业综合体通过24小时巡检机器人与AI算法
2025-09-05 19:46:00
河北新闻网讯(王杨、曹莹莹)河钢集团张宣科技聚焦“近零碳排”冶炼全流程,通过持续优化生产工艺,充分释放设备效能。近日,该公司成功开发的高品质汽车用材料
2025-09-05 18:00:00
Baseus倍思强强联合Bose发布三大年度旗舰新品,高端专业音频迈入全民化时代
2025 年 9 月 5 日 14:00,全球新生活移动数码品牌 Baseus倍思举办线上新品发布会, 正式发布其年度旗舰音频新品——倍思 Inspire系列
2025-09-05 18:31:00
引领健康储鲜,澳柯玛风冷变频冷柜斩获“云鼎奖”
鲁网9月5日讯近日,奥维云网2025数字生态大会在杭州闭幕。作为家电行业极具影响力的年度盛会,现场汇聚了众多家电领军品牌
2025-09-05 13:38:00
周黑鸭携四大产品线矩阵破局全场景消费,构建卤味行业新范式
齐鲁晚报·齐鲁壹点 记者 张召旭在近期举办的行业展会上,周黑鸭凭借前瞻性战略布局引发行业广泛关注——品牌首次系统推出针对多元消费需求与渠道特性开发的四大产品线
2025-09-05 11:00:00
当“保温杯里泡枸杞”从段子变成日常,当“中药房下午茶”取代美式咖啡成为年轻人新宠,老字号品牌们逐渐发现:年轻人不是在买一杯饮料
2025-09-05 11:02:00
本报记者 魏 静 □ 忽 艳在国内鼓励创新、倡导在世界舞台展示中国实力产品与个人实力的大环境下,越来越多中国品牌凭借创新精神与卓越品质
2025-09-05 11:02:00
近日,阳光人寿秦皇岛中支在益寿园开展“银发课堂”特色活动,为老年群体送上内容丰富的金融知识。活动现场,工作人员通过生动的案例
2025-09-05 09:36:00
36氪首发|掘金“微醺”社交经济,精酿品牌「TAGSIU」获近千万 Pre-A 轮融资
作者 | 李小霞36 氪获悉,精酿品牌「TAGSIU 醍宿酿造」(下称“TAGSIU”)已完成近千万 Pre-A轮融资
2025-09-04 22:09:00
从形态突破到生态跃迁:华为三折叠的「鸿蒙时刻」
三折叠这个赛道,或许只有华为能够超越华为。华为Mate XT 非凡大师发布一年之后,三折叠这片“无人区”,仍然只有华为的身影
2025-09-05 00:13:00
大众网记者 张田夏荫 实习记者 张智尧 报道海信集团总裁、海信视像科技股份有限公司董事长于芝涛正式以大赛形象大使与推介大使的身份
2025-09-04 10:04:00
第26届GOPS全球运维大会落幕,AI Infra赋能运维转型
2025年6月28日,为期两天的第26届GOPS全球运维大会暨研运数智化技术峰会在北京市圆满落幕。作为国内首个运维行业盛会
2025-09-04 11:33:00
三联家电“伙拼9.12”权益全解析!三重补贴省心省钱嗨购金秋
鲁网9月4日讯金秋家装季撞上三联家电第十一季“伙拼9.12”大型内购福利会!这场被万千家庭期待的消费盛宴即将引爆全城!多重补贴
2025-09-04 11:33:00
灵动集团旗下欢米粒心理:新学期,为青少年心理护航——以专业体系构建成长防护网
在青少年心理健康服务需求进入 “刚性增长期” 的当下,资质与专业双轮驱动成为行业发展的核心支撑。灵动生活集团作为《互联网心理服务・心理测评服务通用规范》国家标准制定委员单位
2025-09-04 11:55:00
金秀之光,宏瑶传承千年瑶浴的现代创新之路
金秀大瑶山的采药人每日清晨踏遍青山,采集当地草药。这些草药通过广西宏瑶生物科技股份有限公司(以下简称“宏瑶股份”)的现代研发与技术加工
2025-09-04 11:55:00