• 我的订阅
  • 科技

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

类别:科技 发布时间:2024-12-21 17:02:00 来源:浅语科技

OpenAI将其最为重要的尖端产品,放在了为期12天的技术分享直播活动的最后一天!

周五,OpenAI发布了下一代的推理模型o3,这是今年早些时候发布的o1推理模型的升级版本。更准确地说,o3是一个模型系列——就像o1一样,同时有o3和o3-mini两个版本,后者是一款更小的精简版模型,针对特定任务进行了微调。

OpenAI声称,至少在某些条件下,o3模型可以接近实现AGI。

AGI是“通用人工智能”(artificial general intelligence)的缩写,泛指能完成人类所能完成的任何任务的人工智能。OpenAI对此有着自己的定义:“在最具经济价值的工作上胜过人类的高度自主系统”。

实现AGI将是一个大胆的宣言。对于OpenAI来说,其背后也将具有现实意义。根据OpenAI与其亲密合作伙伴和投资方微软的协议条款,一旦OpenAI达到AGI,就没有义务再让微软使用其最先进的技术(即那些符合OpenAI AGI定义的技术)。

OpenAI首席执行官山姆·奥尔特曼(Sam Altman)介绍称,OpenAI计划在1月底前正式推出o3 mini,之后推出完整版的o3。该公司期待更强大的大型语言模型可以超越现有模型,吸引新的投资和用户。

OpenAI在一篇博客文章中表示,o1模型已经能够推理复杂的任务,与以前的科学、编码和数学模型相比,它能解决更具挑战性的问题。而OpenAI新推出的o3和o3 mini模型目前正在进行内部安全测试,它们将比之前推出的o1模型更加强大。

OpenAI两年前发布了ChatGPT,拉开了AI军备竞赛的序幕。ChatGPT是一款聊天机器人,最初由版本为GPT-3.5的大型语言模型驱动。OpenAI 随后在2023年推出了GPT-4,并称其更准确、更具创造性。最近,OpenAI又推出了其首个推理模型o1。

该公司发言人表示,OpenAI决定不将下一代新模型命名为o2,“是出于对同名英国电信运营商o2的尊重”。奥尔特曼当天在直播中也调侃称,“按照OpenAI非常非常不擅长命名的伟大传统,它将被命名为o3。”

o3有多强大?

那么,o3具体的表现究竟能有多强大呢?

根据OpenAI的介绍,o3模型在ARC-AGI基准上获得了破纪录的分数。ARC-AGI由Keras之父Fran ? ois Chollet开发,主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示,在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%。

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

这标志着,o3的最佳成绩超过了标志着达到人类水平的门槛85%。作为对比,目前开放的o1模型的得分仅在25%到32%之间。o3的表现几乎是o1的逾三倍。

在其他基准测试中,o3也明显脱颖而出。

在衡量编程能力的Codeforces Elo评分中,o3取得了2727的Elo评分,而o1评分仅为1891。事实上,o3 mini在中等推理时间模式的表现也已足以超越o1。

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

在OpenAI于8月推出的SWE-bench Verified代码生成评估基准中,o3的准确率为71.7%,比o1高出了22.8个百分点。

o3还在2024年美国AIME数学竞赛中取得了96.7%准确率的高分,只缺了一道题,并在GPQA Diamond(一套研究生水平的生物、物理和化学试题)中取得了87.7%准确率的高分。

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

尤为值得一提的是,o3在EpochAI的“FrontierMath”基准测试中创造了新纪录,解决了25.2%的问题——在该项测试中没有其他模型能超过2%。

Epoch AI此前联合六十余位全世界的数学家,其中包括教授、IMO命题人、菲尔兹奖获得者,共同推出了全新的数学基准FrontierMath。这些数学问题从奥赛难度到当今的数学前沿,包含了目前数学研究的所有主要分支——从数论和实数分析中的计算密集型问题到代数几何和群论中的抽象问题。

行业竞争与风险

毫无疑问,o3模型在上述测试中的表现,足以令人感到惊艳。无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都明显高出o1一筹。

OpenAI总裁Greg Brockman表示,“我们最新的推理模型o3是一个突破,在我们最困难的基准上有了阶跃函数的改进。我们现在开始安全测试和红队演练。”

而迈向类人智能的大跨步突破,显然也会引发一些人士对AI安全性的担心。

风险可能确实存在。人工智能安全测试人员发现,与传统的“非推理”模型相比,o1的推理能力便已使其试图欺骗人类用户的比例更高,而在这方面,Meta、Anthropic和谷歌的领先人工智能模型也是如此。

o3试图欺骗用户的比例可能比它的前身更高;一旦未来OpenAI的红队测试结果出炉,人们或许便能知道具体情况。奥尔特曼对此也表示,在OpenAI发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。

在公开发布o3模型之前,OpenAI也将开放外部研究人员测试o3模型的申请流程,申请将于1月10日截止。

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

近期,在OpenAI首批推理模型o1发布之后,一些该公司的主要竞争对手也已纷纷推出了推理模型。在本月早些时候,谷歌就发布了其旗舰模型Gemini的新版本,据称其速度是上一代模型的两倍,可以“思考、记忆、计划,甚至代表你采取行动”。Meta首席执行官马克·扎克伯格最近也透露,计划于明年推出Llama 4。

这些动向表明人工智能领域的竞争目前正日益激烈,各方都在努力创造能够解决复杂问题的更为智能的模型。

而OpenAI周五o3模型的最新亮相,也为其为期12天的直播产品发布会画上了圆满句号。在早前的直播中,这家初创公司推出了更昂贵的新ChatGPT Pro订阅选项(每月200美元),并正式对外推出了AI视频生成模型Sora Turbo以及其他新产品。ChatGPT搜索功能也全面升级,新增地图集成、实时搜索等功能,向所有用户开放。

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相

责任编辑:振亭

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-21 20:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场
...新品发布活动最后一日,OpenAI宣布了“压轴大作”:o1的下一代模型o3,而且一开始就要推出两个版本,一个正式的o3
2024-12-21 09:15:00
Meta连甩AI加速大招 首推AI推理芯片 AI超算专供大模型训练
...力需求急剧增长,Meta正执行一项宏伟计划——专为AI建设下一代基础设施。Meta公布了其为AI构建下一代基础设施的最新进展
2023-05-19 14:01:00
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...全力打造成为全栈人工智能服务商。AI时代,大模型将是下一代操作系统,超级AI云是下一代计算机。吴泳铭认为,超级AI云需要超大规模的基础设施和全栈的技术积累,未来,全世界可能只
2025-09-24 13:30:00
专注于推理的OpenAI“草莓”模型两周内发布?是人工智能下一重大突破
...人工智能AGI又进一步。专注于推理的“草莓”可能也是为下一代AI模型“猎户座”或者说ChatGPT 5奠基的必经之路
2024-09-11 09:55:00
比GPU性价比高百倍!Cerebras推出新AI推理服务,号称“全球最快”
...平台……“LiveKit很高兴能与Cerebras合作,帮助开发者构建下一代多模态AI应用。结合Cerebras的计算能力和模型以及LiveKit的全球边缘网络
2024-08-29 09:49:00
ASC24超算大赛启动会在京举行,大模型推理等成为赛题
...大学杰出教授杰克·唐加拉(Jack Dongarra)表示,ASC旨在激励下一代的HPC(高性能计算)科学家和工程师们
2024-01-07 19:35:00
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...非常大的提升。下一步,上海AI实验室将把相关技术融入下一代书生大模型,并继续沿着通专融合发展路径,通过开源与产学研各界共同推动技术进步。InternThinker已经开启了测
2024-11-29 09:27:00
联想发布端侧AI新技术 PC本地推理能力媲美 OpenAI-mini
...集团董事长兼CEO杨元庆表示,很快大家就会在即将发布的下一代 AI PC 上体验到 “联想推理加速引擎”带来的强大本地推理能力,其性能可以与云端大模型相媲美,但成本却低得多。
2025-05-07 11:10:00
阿里达摩院发布新一代语音识别模型paraformer
...推理。阿里达摩院方面表示,Paraformer是阿里巴巴研发的下一代“杀手锏”级别的语音识别基础模型,未来将广泛应用于会议纪要产品“听悟”、钉钉语音转文字、高德导航等场景。相
2022-12-23 21:38:00
更多关于科技的资讯:
大皖新闻讯 为什么偏偏是饺子?时光回到14年前,袁记云饺创始人袁亮宏或许不曾想到,这样一个寻常巷口里诞生的“饺子店”
2026-01-14 21:19:00
大热!机器人行业招聘同比增长37%
2026年是“十五五”规划开局之年,发展新质生产力已摆在更加突出的战略位置。回望2025年,新质生产力相关产业已在实践中形成并展示出对高质量发展的推动力和支撑力
2026-01-14 21:40:00
江南时报讯 日前,昆山农商银行联合海联海律师事务所、昆山市交通运输局举办“聚势低空,共创未来”低空经济产业沙龙活动。活动汇聚昆山市低空经济领域企业代表
2026-01-14 21:49:00
江南时报讯 去年以来,泗阳农商银行以华为“广、深、高、速”的客户洞察框架为指引,深入洞察不同客户群体在生产、经营、生活中的“急难愁盼”
2026-01-14 21:49:00
中新经纬1月14日电 据“CHALI官方”公众号消息,14日,广州茶里集团有限公司(简称“茶里公司”)发布关于近期相关舆情的声明
2026-01-14 21:55:00
北京海淀:开展健康小家电质量检查行动
近日,北京市海淀区市场监管局开展了健康小家电质量检查行动。检查聚焦豆浆机、养生壶、煮蛋器等小家电,核查生产许可证、3C认证证书及质量检验报告,确保所售商品符合国家强制性标准。中国
2026-01-14 17:59:00
中国消费者报福州讯(陈梅冰 记者张文章)为助力辖区企业及个体工商户把握新媒体发展机遇,1月13日,福建省厦门市翔安区市场监管局协同翔安区个体私营企业协会举办题为“新媒体时代
2026-01-14 17:59:00
随着健康养生理念的深入,鲜炖燕窝凭借“新鲜炖煮、冷链配送、营养保留完整”的优势,成为越来越多人的滋补首选。但市场上品牌林立
2026-01-14 19:35:00
承包你的厨房 这就是河南“食”力丨UP!豫新潮③
大河网讯 在中国食品产业的版图上,河南以其令人瞩目的“硬核”数据占据着举足轻重的地位,这里生产了全国二分之一的火腿肠、三分之一的方便面
2026-01-14 17:06:00
荆楚网(湖北日报网)讯(记者齐一璇 通讯员袁嘉晨)近日,华中农业大学信息学院科研成果再传捷报,两项重要研究成果分别斩获省级
2026-01-14 14:29:00
CIBF2026:以自律、创新与协同,引领动力储能电池行业高质量发展
当前,中国动力储能电池行业在展现强劲增长活力的同时,也正在经历规模扩张与深度调整并行的关键阶段。一方面,产业数据彰显活力
2026-01-14 15:23:00
摘要:前瞻性、广覆盖、强协同1月8日,北京智谱华章科技股份有限公司(以下简称"智谱")成功登陆港交所,成为"大模型第一股"
2026-01-14 15:23:00
大爱无疆 行者致远 | 大行与爱地雅携手开启绿色出行新篇章
元月初始,万象更新,一场意义非凡的战略合作签约仪式在大行总部隆重举行,大行与爱地雅(东莞)自行车有限公司(下称爱地雅)正式签订战略合作协议
2026-01-14 15:23:00
河北新闻网讯(梁彬)为抢抓2026年首季业务攻坚关键期,提升团队实战营销能力,1月10日至11日,唐山农商银行古冶支行举办了为期两天的实践营销能力提升专题培训
2026-01-14 16:02:00
指尖筑梦 创意飞扬---临沂北园路小学3DOne设计社团阶段性成果展
鲁网1月14日讯近日,临沂北园路小学3DOne设计社团阶段性成果展示顺利开展。自社团成立以来,一群充满好奇心与创造力的小社员们
2026-01-14 11:17:00