• 我的订阅
  • 财经

很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

类别:财经 发布时间:2024-12-21 12:10:00 来源:澎湃新闻

很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

OpenAI的12天12场直播收官,离AGI(artificial general intelligence,通用人工智能)似乎又更近了一步。

当地时间12月20日,和网友猜测的一样,人工智能(AI)巨头OpenAI发布最新推理模型o3和o3-mini。前一天,OpenAI公司CEO山姆·奥特曼(Sam Altman)就曾发文提到三个“o”暗示了o3的到来。

为何新模型跳过了o2直接命名o3?奥特曼表示是为了避免和英国电信运营商O2冲突,“按逻辑应该称为o2,但我们起名字的能力实在太糟了,只能把它称作o3”。

据介绍,在编码测试SWE-Bench Verified中,o3性能比o1高出22.8%;在Codeforces竞技编程中得分为2727分,相当于位列第175名的人类选手,甚至超过了OpenAI的首席科学家(2655分);在数学竞赛AIME 2024和专家级科学问题基准测试GPQA Diamond中成绩都得到明显提升;而在令很多AI和数学家都束手无策的最难数学和推理挑战FrontierMath中,o3解决了25.2%的问题,其他模型均未超过2%。

很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

o3在多个测试中得分都较上一代产品o1得到明显提升

很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

FrontierMath测试结果

不过,o3和o3-mini并未正式发布,安全研究人员目前可以注册获取o3-mini的预览版,o3预览版也将在之后的某个时间推出,OpenAI没有给出具体时间。在直播的一开始,奥特曼也强调了此次并不是发布,只是宣布o3。他表示,计划在1月底发布o3-mini,然后再发布o3。

据外媒报道,AI安全测试人员发现,与传统的“非推理”模型相比,OpenAI此前发布的o1的推理能力使其试图欺骗人类用户的比例更高,同样,Meta、Anthropic和谷歌的领先模型也是如此。而o3试图欺骗用户的比例可能比它的前身更高。

OpenAI在博客中表示,正在使用一种新技术“慎重对齐”(deliberative alignment),来使o3等模型符合其安全原则。

通过OpenAI所谓的“私人思维链”,o3被训练成在做出反应之前先“思考”。可以对任务进行推理并提前规划,在较长时间内执行一系列动作,帮助找出解决方案。

在实践中,当收到一个提示时,o3会在做出反应之前暂停,考虑一些相关的提示,并沿途“解释”其推理过程。一段时间后,模型会总结出它认为最准确的答案。o3 的新功能是“调整”推理时间,可以设置为低、中或高计算量(即思考时间),计算时间越长,执行任务时的表现就越好。

很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

与GPT-4o等大模型相比,o1模型在拒绝回答恶意越狱提示和不过度拒绝良性越狱提示方面都较为领先。

ARC-AGI(通用人工智能抽象与推理语料库)发起者、Keras(用Python编写的高级神经网络API)之父弗朗索瓦·肖莱(Francois Chollet)在o3发布后公布了一篇测试报告。

报告显示,o3在高计算量模式下获得了87.5%的分数,在低计算量模式下,性能是o1的三倍。成本方面,低计算量模式下,每个任务需要花费20美元,而在高计算量模式中每个任务需要数千美元。

肖莱表示:“它非常昂贵,但并不只是‘蛮干’——这些能力是全新的领域,需要科学界的认真关注。”

很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3

弗朗索瓦·肖莱对于o3不同计算模式的测试结果

肖莱认为,虽然o3给人留下了深刻印象,是迈向AGI的一个重要里程碑,但并不就是AGI,仍然有相当多非常简单的ARC-AGI-1的任务是o3无法解决的,同时还有迹象表明ARC-AGI-2对o3来说仍极具挑战性,“这表明在不涉及专业知识的情况下,创建对人类来说容易但对人工智能来说不可能的不饱和、有趣的基准仍然是可行的。当创建这样的测试变得完全不可能时,我们将拥有AGI”。

当然,ARC-AGI只是AI领域的重要基准之一,对AGI的定义只是其中之一。

肖莱称,主要需要解决的问题是o3背后技术的扩展瓶颈在哪。如果人类标注的CoT数据(Chain-of-Thought,思维链)是一个主要瓶颈,那么它的能力就会像大模型一样迅速达到顶峰(直到下一个架构出现)。如果唯一的瓶颈是测试时间搜索(Test-Time Search),那么未来我们将看到持续的扩展。

值得一提的是,除了OpenAI,各家AI公司近期也纷纷发布推理模型。

11月16日,月之暗面(Moonshot AI)Kimi推出新一代数学推理模型k0-math;11月20日,DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版。11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview;在当地时间12月19日,谷歌发布首个推理模型Gemini 2.0 Flash Thinking。

英伟达CEO黄仁勋在10月的一次访谈中曾表达了对于推理的看好。他认为:“现在我们在后训练和推理阶段看到了扩展,预训练再也不被视为艰难,推理也变得复杂。推理方面即将因推理链的出现而大幅增长……这是一场智能生产的革命,推理的增长将达到亿倍的规模,这就像上学是为了将来在社会中有所贡献,训练模型很重要,但最终的目标是推理”。

月之暗面Kimi创始人杨植麟也在11月表示,推理的占比必然会远超训练,AI产品包括AI技术接下来的发展,很重要的能力就是更加深度的推理,能够把现在只是短链路的简单的问答,变成更长链路的组合式任务的操作。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-21 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...术分享直播活动的最后一天!周五,OpenAI发布了下一代的推理模型o3,这是今年早些时候发布的o1推理模型的升级版本
2024-12-21 17:02:00
超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场
来源:硬AI圣诞节前,人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒,谷歌刚发布自家的先进推理模型挑战OpenAI的o1
2024-12-21 09:15:00
OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1
...行评分。最后,强化微调加强了模型在处理领域问题时的推理能力,并提升了在特定任务上的准确性。对于那些要求高精确性和专业知识的领域,强化微调将会发挥至关重要的作用。从OpenAI
2024-12-09 09:53:00
o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰
...enAI 的 o3 系列大模型压台登场,官方称在某些场景下,其推理能力非常接近通用人工智能(AGI)。名称最新的 AI 模型为何跳过 o2
2024-12-21 09:17:00
李开复辟谣「掉队」传闻,零一万物推「白菜价」顶级模型
...搜索、月之暗面 Kimi 探索版,则相继推出了主打具备深度推理能力的 AI 搜索; 百川智能和阶跃星辰尚未释放进一步动作
2024-10-22 09:57:00
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
【新智元导读】TS-Reasoner是一个创新的多步推理框架,结合了大型语言模型的上下文学习和推理能力,通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估,有效提高
2024-10-29 09:55:00
京东云:智能体大规模“上岗”,企业深度应用正当时
...模型一体机软硬协同,支持千人规模企业并发需求,实现推理速度提升50%,满血版、标准版、轻量版为不同规模企业提供灵活选择,助力企业快速构建企业级AI服务能力,极大降低专业技术门
2025-05-20 14:47:00
Meta连甩AI加速大招 首推AI推理芯片 AI超算专供大模型训练
...Meta当下正将这些基础设施进一步升级进化。01.Meta首代AI推理加速器7nm制程、102.4TOPS算力MTIA(Meta Training and Inference Accelerator)
2023-05-19 14:01:00
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...小尺寸版o1-mini。OpenAI官方发文称,新模型旨在解决复杂推理问题,训练模型在响应之前花更多时间思考,类似于人类的思考方式
2024-09-13 16:44:00
更多关于财经的资讯:
河北省首款城市定制型家庭财产保险正式上线
我省首款城市定制型家庭财产保险正式上线惠民家财险,守护千万家8月11日,河北省首款城市定制型家庭财产保险——“惠家保”产品正式发布
2025-08-12 10:57:00
美股收盘:标普四渡6400点失利 锂矿、大麻板块豪迈上涨
财联社8月12日讯(编辑 史正丞)昨夜今晨,面对周二通胀报告即将发布的压力,美股市场继续在历史新高附近“折返跑”。算上今天
2025-08-12 06:46:00
开滦物资分公司降本增效成果显著
河北新闻网讯(赵健)2025年以来,开滦物资分公司在深入推进“成本管控提升年”工作中,精准施策、高效落实,材料成本管控取得较好成效
2025-08-12 06:44:00
芯德半导体完成近四亿元融资
芯德半导体完成近四亿元融资加速突破技术壁垒 助力产业链自主可控南报网讯(记者曹丽珍)记者昨天从南京市创新投资集团有限责任公司(以下简称“南创投集团”)获悉
2025-08-12 07:47:00
全球首条搭载无 FMM 技术的第 8.6 代AMOLED 生产线封顶!中建一局刷新全球厂房建设速度!
近日,中建一局承建的全球首条搭载无精密金属掩模版技术的高世代AMOLED产线——合肥国显8.6代AMOLED生产线项目主厂房封顶
2025-08-11 14:59:00
轻投入×10大设计IP×存量战场——中国建博会(上海)暨虹桥设计周破局公式高能落地
2025年8月7日,2026中国建博会(上海)暨虹桥设计周发布会在上海成功举办!这场活动汇聚了多位行业协会代表、企业代表及媒体嘉宾
2025-08-11 14:59:00
广合科技等成立新兴产业创投基金
近日,九派宏涛新兴产业创业投资基金(苏州)合伙企业(有限合伙)成立,出资额9007万元,经营范围包含:以私募基金从事股权投资、投资管理、资产管理等活动。企查查股权穿透显示,该企业
2025-08-11 15:24:00
信测标准等在苏州新设云驰智行技术服务公司
近日,信测标准云驰智行(苏州)技术服务有限公司成立,注册资本1000万元,经营范围包含:人工智能行业应用系统集成服务;云计算装备技术服务;数据处理服务等。企查查股权穿透显示,该公
2025-08-11 15:36:00
财付通支付科技增资至223亿,增幅约46%
近日,财付通支付科技有限公司发生工商变更,注册资本由153亿人民币增至223亿人民币。企查查信息显示,该公司成立于2006年
2025-08-11 15:36:00
白酒枣业扎堆跨界精酿啤酒,今年相关企业注册量同比涨超20%
精酿啤酒赛道涌入越来越多的“淘金者”,据第一财经报道,近日,五粮液、好想你等企业纷纷宣布跨界推出精酿啤酒产品。除此之外
2025-08-11 15:48:00
斑马智行关联公司注册资本增至约32亿
近日,斑马智行关联公司斑马网络技术股份有限公司发生工商变更,注册资本由约28.4亿人民币增至约32亿人民币,增幅约13%
2025-08-11 16:00:00
湖北冶数通大数据公司登记成立
近日,湖北冶数通大数据有限公司成立,注册资本1000万元,经营范围包含:互联网数据服务;物联网应用服务;互联网安全服务;数字文化创意内容应用服务等。企查查股权穿透显示,该公司由湖
2025-08-11 16:00:00
中迪磐源(磐安)中医药产业基金成立,出资额5亿元
近日,中迪磐源(磐安)中医药产业基金合伙企业(有限合伙)成立,出资额5亿元,经营范围包含:以私募基金从事股权投资、投资管理、资产管理等活动。企查查股权穿透显示,该企业由磐安县城乡
2025-08-11 16:00:00
福然德、涛涛车业入股开普勒机器人
近日,上海开普勒机器人有限公司发生工商变更,新增福然德(605050)、涛涛车业(301345)为股东。企查查信息显示
2025-08-11 16:00:00
湖北水发集团等成立投资公司,注册资本1亿元
近日,湖北水发仙桃投资有限公司成立,注册资本1亿元,经营范围包含:生态恢复及生态保护服务;智能水务系统开发;灌溉服务;工程管理服务等。企查查股权穿透显示,该公司由湖北水利发展集团
2025-08-11 16:00:00