• 我的订阅
  • 科技

o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰

类别:科技 发布时间:2024-12-21 09:17:00 来源:IT之家

IT之家 12 月 21 日消息,“12 Days of OpenAI”活动已拉上帷幕,OpenAI 的 o3 系列大模型压台登场,官方称在某些场景下,其推理能力非常接近通用人工智能(AGI)。

名称

最新的 AI 模型为何跳过 o2,叫做 o3 呢?OpenAI 公司首席执行官山姆・阿尔特曼(Sam Altman)在今天早上的直播活动,表示是为了规避和英国电信运营商 O2 的商标冲突。

邀请安全测试

o3 是 o1 推理模型的继任者,包含完整版和精简版(o3-mini),后者主要针对特定任务进行了微调。

OpenAI 公司暂未完全开放 o3 和 o3-mini 两款模型,即日起先邀请安全研究人员,注册测试预览版 o3-mini 模型,后续再推出 o3 预览版。

o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰

o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰

现在,感兴趣的朋友可以提交申请:https://openai.com/index/early-access-for-safety-testing/。

阿尔特曼并未公布 o3 模型的具体开放日期,仅透露 2025 年 1 月底推出 o3-mini,后续再推出 o3。

o3 模型推理

OpenAI o3 模型和主流 AI 模型的一个最大不同点,在于会展开事实核查,从而可以规避一些常见的模型陷阱,但这个过程会产生响应延迟,根据推理难度,通常是几秒到几分钟。

o3 系列模型的另一个亮点是使用“私人思想链”(private chain of thought)进行“思考”,它可以在响应前暂停,考虑相关提示并解释其推理过程,最终总结出最准确的答案。

o3 的新功能之一是可以调整推理时间,分为低、中、高三种计算级别,计算级别越高,o3 的任务执行性能越好。

性能和 AGI

AGI 的全称是 artificial general intelligence,直译过来就是通用人工智能,泛指 AI 可以像人类一样执行任何任务,OpenAI 公司官方定义为“在最具经济价值的工作中超越人类的高度自治系统”。

OpenAI 公司正积极朝 AGI 目标迈进,除了巩固其在 AI 领域的地位之外,还在投资领域有特别的含义。

根据 OpenAI 与密切合作伙伴和投资者微软的交易条款,一旦 OpenAI 达到 AGI,公司就不再有义务向微软提供其最先进的技术(即符合 OpenAI 的 AGI 定义的技术)。

而 o3 是 OpenAI 是迈向该目标的重要一步,在 ARC-AGI 基准测试中,o3 在高计算设置下获得了 87.5% 的分数,在低计算设置下得分为 75.7%,性能是 o1 的三倍。

ARC-AGI 联合创始人 François Chollet 表示,诚然高计算设置非常昂贵,每个任务要花费数千美元。

IT之家援引该媒体报道,在其他基准测试中,o3 表现出色:

在 SWE-Bench Verified 编程任务基准测试中,o3 比 o1高出 22.8 个百分点;

在 Codeforces 编程技能测试中,o3 获得了 2727 的评分;

在 2024 年美国数学邀请赛中,o3 得分 96.7%;

在 GPQA Diamond 研究生水平生物、物理和化学测试中,o3 得分 87.7%;

在 EpochAI 的 Frontier Math 基准测试中,o3 解决了 25.2% 的问题(其他模型均不超过 2%),创造了新纪录。

o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰

o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰

o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰

这些结果来自 OpenAI 的内部评估,需要等待外部客户和机构的基准测试结果来进一步验证。

安全

o3 的发布标志着 OpenAI 在通用人工智能领域迈出了重要一步。虽然 o3 的能力令人印象深刻,但其潜在风险也需要引起重视。OpenAI 承诺将致力于模型安全,并与其他机构合作构建更完善的基准测试体系。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-21 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...人工智能也能参与其中,那将是一场怎样的智慧与技术的巅峰对决?不再仅仅是肢体的较量,AI的加入无疑将开启对智力极限的新探索, 也期待更多AI选手加入这场智力的奥运会。
2024-06-25 09:45:00
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...小尺寸版o1-mini。OpenAI官方发文称,新模型旨在解决复杂推理问题,训练模型在响应之前花更多时间思考,类似于人类的思考方式
2024-09-13 16:44:00
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...术分享直播活动的最后一天!周五,OpenAI发布了下一代的推理模型o3,这是今年早些时候发布的o1推理模型的升级版本
2024-12-21 17:02:00
...智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕:它们犯下前后不一致的错误,而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明
2024-06-12 18:15:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题
2024-09-13 16:42:00
超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场
来源:硬AI圣诞节前,人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒,谷歌刚发布自家的先进推理模型挑战OpenAI的o1
2024-12-21 09:15:00
很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3
...,和网友猜测的一样,人工智能(AI)巨头OpenAI发布最新推理模型o3和o3-mini。前一天,OpenAI公司CEO山姆·奥特曼(Sam Altman)就曾发文提到三个“o”暗示了o3的到来
2024-12-21 12:10:00
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...本质的不同。其不仅进入到复杂的领域,还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试
2024-09-20 13:33:00
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练
2024-11-13 14:09:00
更多关于科技的资讯:
随着金融科技的迅猛发展,数字化、智能化已成为金融风控领域不可逆转的趋势。在这一浪潮中,深耕行业二十余年的任凯,凭借其深厚的理论积淀与丰富的实战经验
2025-08-05 17:44:00
本届唯一获奖中国日化企业,立白科技集团荣获亚洲企业社会责任奖“绿色领导奖”
本届唯一获奖中国日化企业,立白科技集团荣获亚洲企业社会责任奖“绿色领导奖”立白科技集团荣获2025年度亚洲企业社会责任奖“绿色领导奖”
2025-08-05 15:58:00
?京东再度加码品牌新品扶持力度!“新品孵化三步法”让商家获确定性增长
8月4日,京东新品学习中心开学典礼在北京举行,京东宣布全新上线“京东新品学习中心”,同时升级“京东新品运营中心”,以“方法论+实战平台”组合拳赋能商家
2025-08-05 12:37:00
全球市场规则日益复杂,中国企业却以前所未有的速度走向世界。据最新数据显示,2024年中国企业出海规模达2.17万亿美元
2025-08-05 12:37:00
资源联动赋能多元价值|天津津南吾悦广场撒欢一夏悦动音乐节打造城市文化新场景
2025年7月25日至27日,天津津南吾悦广场2号门“撒欢一夏悦动音乐节”在此盛大启幕。这场为期三天的音乐盛宴,以超强阵容
2025-08-05 12:37:00
破局全域会员运营,美洋MEIYANG携手慧博科技构建“数字化新引擎”
当消费者在直播间秒杀新品、在天猫收藏春装、在实体店试穿搭配时,品牌面临的终极拷问是:如何让分散的会员数据汇聚成驱动增长的持续动能?近日
2025-08-05 12:37:00
奋战三季度 跑好下半场丨出口“2万亿”从何而来:新通道盘活出口增量
今年前6月,浙江外贸进出口总值同比增长6.6%,出口规模首次突破2万亿元,出口增长贡献率居全国首位。在国际贸易紧张局势不断加剧的背景下
2025-08-05 13:06:00
国货美瞳品牌的“拼多多速度”:10天测款,30天卖爆,4年30倍增长
开拓县域蓝海,拼多多如何成为国货美瞳的增量密码?以往美瞳品牌们每3个月一次上新,如今这个时间可能是10天。“早期市场由国外品牌主导
2025-08-05 13:49:00
为保障电力系统稳定高效运行,选择可靠的变压器供应商至关重要。以下推荐五家在技术实力、产品质量及市场口碑方面表现突出的知名品牌:1
2025-08-05 12:37:00
文化新坐标丨从爆款制造到“游戏+”拓展,浙产游戏“大展鸿图”
编者按:当戏曲咿呀融入赛博江南,当良渚神纹沉浸数字宇宙;当短剧光影带火之江风景,当潮玩萌态引爆情绪消费……文化,从来不是凝固的碑石
2025-08-05 13:07:00
脱单难?常焦虑? 珍爱网用产品力回应当代婚恋困境
在生活节奏日益加快、社交圈层逐渐固化的背景下,恋爱与婚姻不再是“水到渠成”的人生节点。近日,民政部网站公布《2024年民政事业发展统计公报》
2025-08-05 10:42:00
新华社记者 高文成走进伦敦地铁,一种时空错位感扑面而来,陈旧的设施,闷热的环境,大片区域没有网络。这一世界上最早的地铁系统
2025-08-05 10:42:00
“送新取旧”重塑快递行业价值链
张玉胜据《人民日报》报道,7月9日,一台从广东中山发往江苏常州的以旧换新家用空调,成为2025年我国第1000亿件快递
2025-08-05 10:42:00
当具身智能机器人在展厅自如行走,当AI眼镜为视障人士点亮盲区,当智能座舱用方言与乘客畅快交流……2025世界人工智能大会上的一幕幕场景
2025-08-05 10:52:00
“抠搜”年轻人,抢空高价演唱会门票
一边在“1688”上精打细算,一边为偶像一掷千金,情绪价值为何成为新一代消费者的集体追求?作者 | 钟慧芊编辑 | 詹腾宇物有所值
2025-08-04 08:47:00