• 我的订阅
  • 科技

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

类别:科技 发布时间:2024-12-21 17:02:00 来源:浅语科技

OpenAI将其最为重要的尖端产品,放在了为期12天的技术分享直播活动的最后一天!

周五,OpenAI发布了下一代的推理模型o3,这是今年早些时候发布的o1推理模型的升级版本。更准确地说,o3是一个模型系列——就像o1一样,同时有o3和o3-mini两个版本,后者是一款更小的精简版模型,针对特定任务进行了微调。

OpenAI声称,至少在某些条件下,o3模型可以接近实现AGI。

AGI是“通用人工智能”(artificial general intelligence)的缩写,泛指能完成人类所能完成的任何任务的人工智能。OpenAI对此有着自己的定义:“在最具经济价值的工作上胜过人类的高度自主系统”。

实现AGI将是一个大胆的宣言。对于OpenAI来说,其背后也将具有现实意义。根据OpenAI与其亲密合作伙伴和投资方微软的协议条款,一旦OpenAI达到AGI,就没有义务再让微软使用其最先进的技术(即那些符合OpenAI AGI定义的技术)。

OpenAI首席执行官山姆·奥尔特曼(Sam Altman)介绍称,OpenAI计划在1月底前正式推出o3 mini,之后推出完整版的o3。该公司期待更强大的大型语言模型可以超越现有模型,吸引新的投资和用户。

OpenAI在一篇博客文章中表示,o1模型已经能够推理复杂的任务,与以前的科学、编码和数学模型相比,它能解决更具挑战性的问题。而OpenAI新推出的o3和o3 mini模型目前正在进行内部安全测试,它们将比之前推出的o1模型更加强大。

OpenAI两年前发布了ChatGPT,拉开了AI军备竞赛的序幕。ChatGPT是一款聊天机器人,最初由版本为GPT-3.5的大型语言模型驱动。OpenAI 随后在2023年推出了GPT-4,并称其更准确、更具创造性。最近,OpenAI又推出了其首个推理模型o1。

该公司发言人表示,OpenAI决定不将下一代新模型命名为o2,“是出于对同名英国电信运营商o2的尊重”。奥尔特曼当天在直播中也调侃称,“按照OpenAI非常非常不擅长命名的伟大传统,它将被命名为o3。”

o3有多强大?

那么,o3具体的表现究竟能有多强大呢?

根据OpenAI的介绍,o3模型在ARC-AGI基准上获得了破纪录的分数。ARC-AGI由Keras之父Fran ? ois Chollet开发,主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示,在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%。

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

这标志着,o3的最佳成绩超过了标志着达到人类水平的门槛85%。作为对比,目前开放的o1模型的得分仅在25%到32%之间。o3的表现几乎是o1的逾三倍。

在其他基准测试中,o3也明显脱颖而出。

在衡量编程能力的Codeforces Elo评分中,o3取得了2727的Elo评分,而o1评分仅为1891。事实上,o3 mini在中等推理时间模式的表现也已足以超越o1。

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

在OpenAI于8月推出的SWE-bench Verified代码生成评估基准中,o3的准确率为71.7%,比o1高出了22.8个百分点。

o3还在2024年美国AIME数学竞赛中取得了96.7%准确率的高分,只缺了一道题,并在GPQA Diamond(一套研究生水平的生物、物理和化学试题)中取得了87.7%准确率的高分。

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

尤为值得一提的是,o3在EpochAI的“FrontierMath”基准测试中创造了新纪录,解决了25.2%的问题——在该项测试中没有其他模型能超过2%。

Epoch AI此前联合六十余位全世界的数学家,其中包括教授、IMO命题人、菲尔兹奖获得者,共同推出了全新的数学基准FrontierMath。这些数学问题从奥赛难度到当今的数学前沿,包含了目前数学研究的所有主要分支——从数论和实数分析中的计算密集型问题到代数几何和群论中的抽象问题。

行业竞争与风险

毫无疑问,o3模型在上述测试中的表现,足以令人感到惊艳。无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都明显高出o1一筹。

OpenAI总裁Greg Brockman表示,“我们最新的推理模型o3是一个突破,在我们最困难的基准上有了阶跃函数的改进。我们现在开始安全测试和红队演练。”

而迈向类人智能的大跨步突破,显然也会引发一些人士对AI安全性的担心。

风险可能确实存在。人工智能安全测试人员发现,与传统的“非推理”模型相比,o1的推理能力便已使其试图欺骗人类用户的比例更高,而在这方面,Meta、Anthropic和谷歌的领先人工智能模型也是如此。

o3试图欺骗用户的比例可能比它的前身更高;一旦未来OpenAI的红队测试结果出炉,人们或许便能知道具体情况。奥尔特曼对此也表示,在OpenAI发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。

在公开发布o3模型之前,OpenAI也将开放外部研究人员测试o3模型的申请流程,申请将于1月10日截止。

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

近期,在OpenAI首批推理模型o1发布之后,一些该公司的主要竞争对手也已纷纷推出了推理模型。在本月早些时候,谷歌就发布了其旗舰模型Gemini的新版本,据称其速度是上一代模型的两倍,可以“思考、记忆、计划,甚至代表你采取行动”。Meta首席执行官马克·扎克伯格最近也透露,计划于明年推出Llama 4。

这些动向表明人工智能领域的竞争目前正日益激烈,各方都在努力创造能够解决复杂问题的更为智能的模型。

而OpenAI周五o3模型的最新亮相,也为其为期12天的直播产品发布会画上了圆满句号。在早前的直播中,这家初创公司推出了更昂贵的新ChatGPT Pro订阅选项(每月200美元),并正式对外推出了AI视频生成模型Sora Turbo以及其他新产品。ChatGPT搜索功能也全面升级,新增地图集成、实时搜索等功能,向所有用户开放。

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

责任编辑:振亭

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-21 20:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场
...新品发布活动最后一日,OpenAI宣布了“压轴大作”:o1的下一代模型o3,而且一开始就要推出两个版本,一个正式的o3
2024-12-21 09:15:00
Meta连甩AI加速大招 首推AI推理芯片 AI超算专供大模型训练
...力需求急剧增长,Meta正执行一项宏伟计划——专为AI建设下一代基础设施。Meta公布了其为AI构建下一代基础设施的最新进展
2023-05-19 14:01:00
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...全力打造成为全栈人工智能服务商。AI时代,大模型将是下一代操作系统,超级AI云是下一代计算机。吴泳铭认为,超级AI云需要超大规模的基础设施和全栈的技术积累,未来,全世界可能只
2025-09-24 13:30:00
专注于推理的OpenAI“草莓”模型两周内发布?是人工智能下一重大突破
...人工智能AGI又进一步。专注于推理的“草莓”可能也是为下一代AI模型“猎户座”或者说ChatGPT 5奠基的必经之路
2024-09-11 09:55:00
比GPU性价比高百倍!Cerebras推出新AI推理服务,号称“全球最快”
...平台……“LiveKit很高兴能与Cerebras合作,帮助开发者构建下一代多模态AI应用。结合Cerebras的计算能力和模型以及LiveKit的全球边缘网络
2024-08-29 09:49:00
ASC24超算大赛启动会在京举行,大模型推理等成为赛题
...大学杰出教授杰克·唐加拉(Jack Dongarra)表示,ASC旨在激励下一代的HPC(高性能计算)科学家和工程师们
2024-01-07 19:35:00
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...非常大的提升。下一步,上海AI实验室将把相关技术融入下一代书生大模型,并继续沿着通专融合发展路径,通过开源与产学研各界共同推动技术进步。InternThinker已经开启了测
2024-11-29 09:27:00
联想发布端侧AI新技术 PC本地推理能力媲美 OpenAI-mini
...集团董事长兼CEO杨元庆表示,很快大家就会在即将发布的下一代 AI PC 上体验到 “联想推理加速引擎”带来的强大本地推理能力,其性能可以与云端大模型相媲美,但成本却低得多。
2025-05-07 11:10:00
阿里达摩院发布新一代语音识别模型paraformer
...推理。阿里达摩院方面表示,Paraformer是阿里巴巴研发的下一代“杀手锏”级别的语音识别基础模型,未来将广泛应用于会议纪要产品“听悟”、钉钉语音转文字、高德导航等场景。相
2022-12-23 21:38:00
更多关于科技的资讯:
电科蓝天(688818)出身于中电科十八所,主要从事电能源产品及系统的研发、生产、销售及服务,拥有发电、储能、控制和系统集成全套解决方案
2026-03-20 22:58:00
山东省宠物零食信息填报系统正式上线
鲁网3月20日讯(记者 刘恭臣)记者从3月17日在临沂举办的2026第三届宠物食品安全大会上获悉,山东省宠物零食信息填报系统正式完成二次实操培训
2026-03-20 20:21:00
案鉴|借“赠送皮肤”引流牟利,法院:构成不正当竞争
福州新闻网3月20日讯(记者 阮冠达)近年来,网络游戏已成为数字消费的重要领域。大部分游戏允许玩家购买道具或皮肤,既提升了用户体验
2026-03-20 22:08:00
OK镜、离焦镜、阿托品……近视防控怎么选?福州普瑞眼科专家解答
近年来,儿童青少年近视呈现低龄化、高度数化趋势,OK镜、离焦镜、低浓度阿托品等防控手段层出不穷,不少家长陷入“选择困难”
2026-03-20 22:09:00
河北新闻网讯(孙岳新)近日,教育部职业教育与成人教育司正式公布第二批“十四五”职业教育国家规划教材遴选结果,河北能源职业技术学院经济与管理系主编的《网络营销》《Excel在会计和财务管理中的应用》两部教材成功入选
2026-03-20 21:52:00
济南市中同日启动两大“山东首店” 以精准落子服务区域高质量发展
鲁网3月20日讯3月20日,同派、竞盛酒店×腾讯电竞两大山东首店在济南市市中区望岳・智谷园区同步启动。该项目由济南市中财金集团携手新世界同派酒店管理集团
2026-03-20 17:19:00
海河观察丨这个产业津城齐聚,大干一场的还有谁? 扫码阅读手机版
雅迪:“我500万辆!”台铃:“我600万辆!”爱玛:“我新总部竣工!”小刀:“我三年翻番!”提起电动车,你会想起哪个品牌
2026-03-20 19:44:00
“精卫”电力量子产品发布 量子科技加速“跑进”电力赛道
大皖新闻讯 为了拓展量子科技应用,2026年,安徽实施量子信息“千家场景”行动,推动超过300个应用场景落地,而电力则是重要的应用领域
2026-03-20 17:51:00
近日,央视新闻曝光的电商平台“超长预售”乱象,精准戳中了无数消费者的痛点。例如,北京张女士下单一款预售包,苦等近一个月
2026-03-20 17:05:00
靖江人工智能OPC项目取得新突破
3月18日,星凝互动 AI漫剧产业项目签约落户靖江,这是靖江市在人工智能时代加速布局新赛道、因地制宜发展新质生产力的生动实践
2026-03-20 15:38:00
崇川三券齐发,重磅赋能AI产业高质量发展
为全力构建“百数、百模、百景”AI生态,助力南通打造长三角AI创新高地,南通市崇川区重磅推出“三券一场景一保障”人工智能专项扶持政策
2026-03-20 15:42:00
左涛纵谈山东苏宁“齐鲁策”:以AI重塑“智慧生活”,让服务下沉“焕新齐鲁”
鲁网3月20日讯“智慧生活服务商”——苏宁易购2026升级的全新战略,既有对AI趋势的敏锐捕捉,也是对线下体验价值的投入重视
2026-03-20 16:07:00
【摘要】在生成式AI驱动非遗创新发展的过程中,河南已开展一系列卓有成效的实践探索,但仍面临数据壁垒、融合局限、造血困境及协作鸿沟等诸多挑战
2026-03-20 16:38:00
鲁网3月20日讯当前,我国经济持续回升向好,稳中有进,恢复和扩大消费仍是稳定经济增长的关键抓手,更是惠及民生、激活市场活力的重要路径
2026-03-20 16:43:00
AWE2026圆满收官 鸿蒙智选720智能空气净化器铂境ProMax惊艳出圈
2026年中国家电及消费电子博览会(AWE)已圆满落幕,本届展会上华为全场景智慧生活展台凭借成熟的生态联动实力备受行业关注
2026-03-20 16:45:00