• 我的订阅
  • 科技

OpenAI并未让DeepSeek惊出一身冷汗

类别:科技 发布时间:2025-04-17 23:25:00 来源:浅语科技

“OpenAI的创新好像到瓶颈期了。”一位业界人士这样说道。

今日凌晨,预热了很久的OpenAI o3模型完整版终于面世,且与以往直播“挤牙膏”式的依次、慢吞发布方式不同的是,这次o3和o4-mini是同时发布。

在OpenAI官方的陈述中,o3和o4-mini的亮点主要在于可以组合调用ChatGPT中的各个工具,像是网络搜索、Python、图像分析、文件解释和图像生成等。这可以看作是OpenAI开始后发补足自身在Agent能力上的探索。

其中,o3作为推理模型,在编程、数学、科学、视觉感知等多个维度的基准测试中都刷新了纪录。比如在Codeforces、SWE-bench、MMMU基准测试中,视觉任务准确率高达87.5%,而MathVista达到75.4%。

其实分数、榜单,这些都是常规操作。相较于以往,这次的最大不同在于,o3和o4-mini将上传的图像直接集中到思维链中,这就意味着,图像不仅仅是被看到,还能被用来作为思考过程中的一部分。

从OpenAI团队成员、中科大校友Jiahui Yu发布的帖文来看,“用图像思考”应该是OpenAI去年9月发布o系列模型以来,就在研发计划中,之前还悄悄推出了o1 Vision并进行了初步预览,但并没有取得很好的效果,也没有引起关注,直到这次在o3和o4-mini上实现了这一能力。

根据外部专家评估,o3作为o1系列模型的继任者,其在复杂问题上的错误率要比后者低20%,适合在生物学、数学和工程领域的复杂问题查询。

针对这一点,国外一位医学博士在测评后发帖表示,这一点确实有很大进步,当他向o3来提问一些颇具挑战性的临床或医学问题时,回答精准、全面,符合对一位该领域真正专家的期望。

对于那些想亲自测评、体验的用户来说,OpenAI官方已经表示,目前ChatGPT的Plus、Pro会员以及Team用户,即日起就可以直接体验o3、o4-mini,以及o4-mini-high,而之前的o1、o3-mini和o3-mini-high已默默退出舞台。这一操作也被有些网友戏称为“内部赛马”,新的产品出来后,之前的通通让路。

到目前为止,之前预告要发布的GPT?4.1全家桶系列、o3、o4-mini模型就已经全部亮相展示了。据Sam Altman表示,o3和o4-mini可能是ChatGPT在GPT-5发布之前的最后独立AI推理模型了,期间大概率是不会再有其他新款模型出来了,另外他也说了,预计将在几周内将o3-pro升级到专业版。

在OpenAI官方的宣传口径中,o3和o4-mini是OpenAI所有模型中最为强大、智能的模型,一些开发者、用户在使用时,也感受到了进步。但是,创新能力似乎并没有达到预期。

“OpenAI的步调已经不再挺胸阔步了,更不知所措。”在看完OpenAI这次发布的新品后,一位业内人士这样感叹道。

虽然o3、o4-mini模型作为新产品,效果不错,但相较于OpenAI以往的激进和高举旗帜式前进,如今在创新上面呈现出明显的心有余而力不足。

其实前两天在GPT4.1系列套餐发布后,不少业内人士就向虎嗅表示,“暂时还没看到有什么特别亮眼的突破。”“对o3期待值没有那么高。”

或者这种“失望”要来得更早一点。

去年12月,o3在OpenAI的系列直播尾声亮相,Sam Altman称其为“一个非常、非常聪明的模型”,完全将O1甩在身后,更是在ARC-AGI测试这一旨在评估AI系统适应新任务和展示流动智力能力的测试中,获得87.5%的成绩,也是首次超越人类平均水平(85%),令业界感到震惊,被认为是在通往AGI的道路上迎来了新突破。但在业界开发者看来,似乎并不是这样。

“这就好比高考成绩不能代表工作业务能力。”一位开源领域人士锐评道。而且,如今的行业趋势已经进入到对数据高要求、对Agent全适配方向中,这就意味着私有化和混合模型推理为主的时代到来了。但是OpenAI对于开源的态度,众所周知。

尤其是在年初,当DeepSeek-R1凭借着超低的训练成本和性能媲美o1精彩亮相时,无疑是给了OpenAI一记响亮的耳光,而DeepSeek的全方位、无死角开源,像是又给了OpenAI再一记更响亮的耳光。

之后,这两记耳光不仅打得OpenAI黯然失色,还乱了它的阵脚和节奏,模型命名混乱、功能创新不足、尝试开源但态度暧昧不明,再加上内部人员高频流失,等等,无疑正在让它慢慢失去竞争优势,再不复一年之前被视为通往AGI的正确的、领先的道路引领者角色……

而官方也说了,此次发布的GPT4.1系列、o3,以及o4-mini是GPT-5正式发布前的最后一次模型发布了,也被视为GPT-5时刻的关键一步,可以理解为是GPT-5的前菜,主打“量大管饱”。但是,在技术的攀登道路上,量变能够引起质变并非唯一真理,更何况,这个量还远远不足。

“GPT-5应该是多个GPT4.1组成的吧。”一位业内人士这样戏谑道,一直传GPT-5或将在5月发布,到底OpenAI还能不能重回巅峰,只有到时候揭晓了。

OpenAI并未让DeepSeek惊出一身冷汗

责任编辑:若风

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-04-18 05:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

百万保险经纪人吓出一身冷汗?DeepSeek让代理人惊呼“方案强大到可怕”
DeepSeek正以迅猛之势席卷保险圈。“用DeepSeek推荐保险产品,系统能根据我的实际情况生成配置方案并给出具体的产品建议,高效又清晰。”在社交媒体上,出现不少利用Deep
2025-02-13 16:47:00
关于人工智能,半年前曾让半个投资圈惊出一身冷汗的往事丨行业观察
...日一早,不少投资人被朋友圈刷屏的一段视频惊出了一身冷汗,视频是一段面试过程,面试对象是前一天刚刚在红杉中国低调上岗的数字虚拟员工 Hóng 。Hóng 应聘的是投资分析师岗位
2023-02-28 10:34:00
曝小鹏P7+大新车高速瞬间失去动力 车主:吓出一身冷汗
...来来往往,当时还是女朋友在开,“已经晕了,吓出一身冷汗,发帖时距离故障突发已经快2个小时了,到现在还没缓过来。”博主称自己本来准备和家人去玩,订了酒店,现在估计是要泡汤了。
2025-01-21 18:30:00
...太好的文科生业内人士如何看待这个多模态预训练大语言模型?记者采访了上海交通大学教授、自然语言处理专家赵海。“读图编程”表演令人惊艳赵海教授解释,模态对应的是人类感知类型,包括
2023-03-16 09:23:00
...轮的波澜不惊相比,中国女队在首轮却被印度队惊出一身冷汗。尽管最终大比分3∶2逆转取胜,但孙颖莎和王艺迪的接连丢分,还是让人产生疑问:印度队都这么强了?她们到底有什么制胜法宝?
2024-02-18 08:36:00
AI视觉进入“大模型时代”不仅“看得见”还“看得懂”
...解析为核心;宇视科技的“梧桐”集CV行业、NLP行业等于一身,能够满足多样化的任务和场景需求;云从科技的大模型“从容”应用于视频监控、入侵检测、人脸识别等过程中的数据分析,“
2023-11-12 05:33:00
谷歌将自家ai大模型gemini公开亮相时间推迟
...周六报道,两位知情人士透露称谷歌已经悄然将自家AI大模型Gemini的公开亮相时间推迟到了明年1月。而在此之前,Gemini的“首秀”和一系列相关活动原计划下周在加州、纽约和
2023-12-03 19:29:00
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...公司 Anthropic 于太平洋时间 2024 年 3 月 4 日发布 Claude 3 大模型以来,全世界网友正在对其进行广泛测试
2024-03-12 10:59:00
赵云离世后,托梦诸葛亮,只说9字,把诸葛亮吓得一身冷汗
...离世后托梦给诸葛亮说了什么,一度能把诸葛亮下厨一身冷汗?我们一起来看看吧。诸葛亮掌权蜀汉时,蜀汉的五虎上将仅剩下赵云一人,等蜀军准备充足后诸葛亮带着他们北伐。战争初期赵云带着
2023-09-02 20:46:00
更多关于科技的资讯:
集萃智造研发智能养老机器人入选“国家级试点”递送物品助喂药 轻扶起身防跌倒南报网讯(通讯员芦玲玲记者徐宁)记者昨天从市工信局获悉
2025-09-03 07:38:00
全国首批专利产业化综合保险在宁落地全链条“上保险”,让企业无惧“试错”南报网讯(记者曹丽珍)“有了保险的支撑,我们才有勇气敢于‘试错’
2025-09-03 07:39:00
江苏南京:攀高逐新,数据推动经济加“数”前行
记者走进主城最大的数智城,超1800家数商企业集聚于此——攀高逐新,数据推动经济加“数”前行汉卫研究院的智慧疾控综合管理平台犹如一个“数据大脑”
2025-09-03 07:39:00
在选择家用净水器时,除了核心的过滤效果,日常使用体验往往更直接地影响幸福感。本次净水器推荐将聚焦于用户最关心的四大实用维度
2025-09-02 11:08:00
钟薛高被申请破产将开庭,创始人曾回应雪糕“烧不化”
企查查APP显示,近日,钟薛高食品(上海)有限公司新增一起破产清算案件开庭信息。公告显示,该案申请人为上海臻料贸易有限公司
2025-09-02 11:09:00
腾讯回应被米哈游起诉:不能违规提供用户资料
9月1日晚,腾讯回应被米哈游起诉:“本次诉讼系米哈游因自身民事诉讼需要,希望调取相关QQ用户资料,但根据保护用户隐私的相关法律规定
2025-09-02 11:10:00
全球门店扩张至5.3万家!蜜雪集团发布中期业绩公告,上半年净赚27亿元
近日,蜜雪集团发布中期业绩公告:上半年收入为148.7亿元,同比增长39.3%;净利润为 27.18亿元,同比增长44
2025-09-02 11:10:00
王志顺9月1日起,我国正式实施新的电动自行车强制性国家标准《电动自行车安全技术规范》。最让消费者关注的一条新规就是,当车速超过25公里/小时
2025-09-02 11:24:00
取消角色、武器抽卡,去除体力系统,《二重螺旋》玩这么大?| 玩点好的
文丨马晓迪编辑丨果脯8月26日晚,英雄游戏旗下潘神工作室自主研发的幻想风多维战斗爽游《二重螺旋》,通过官方直播正式公布10月28日全球多平台同步公测的消息
2025-09-03 03:08:00
京东图书推出“拿起书 握住世界”主题活动 “线上+线下”双轮助力全民阅读
京东外卖骑手王礼明在送餐间隙翻开《平凡的世界》,书房主理人谢旺与《苏菲的世界》对话,小可母女共享《长安的荔枝》与萌宠绘本的双重乐趣……在京东图书推出的《书对你来说意味着什么》纪录片中
2025-09-02 11:40:00
山东移动聊城分公司:面对面解难题,心贴心优服务
为深入倾听客户声音、精准解决服务痛点,近日,山东移动聊城分公司组织“面对面解难题,心贴心优服务”活动,通过优化服务流程
2025-09-02 11:43:00
中高端 Mini LED 显示器 “卷” 出新方向?雷鸟 34Q9 用垂直整合优势打破竞争僵局
2025年9月1日,雷鸟品牌以极具竞争力的3999元定价推出34Q9 Mini LED电竞显示器,此举不仅完善了其产品矩阵
2025-09-02 14:09:00
东方空间与飞书达成合作,AI引领商业航天协作创新
9月1日,飞书与国内领先商业航天企业东方空间在北京正式签署全面合作协议。这是飞书在商业航天领域持续深耕、新的重磅合作。东方空间成立于2020年
2025-09-02 14:13:00
兴至简机械背后的几手“硬招”推动四川简阳外贸量稳增
消费日报网讯(记者 罗颖 □ 叶玲 谭泽阳)今年以来,面对复杂的市场环境,四川兴至简机械有限公司通过引进专业人才、优化产品结构
2025-09-02 14:21:00
校企携手搭建AI实训平台,「腾讯高校AI嘉年华」首站启动
2025年9月1日,全国高校开学第一日,「腾讯高校AI嘉年华」正式开启。在首站西安电子科技大学的活动现场,大一新生可以用元宝
2025-09-02 14:26:00