• 我的订阅
  • 科技

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

类别:科技 发布时间:2025-02-04 04:25:00 来源:36氪

北京时间2月3日上午,OpenAI正式推出面向深度研究领域的智能体产品深度研究(Deep research)功能。

曾经一位经验丰富的行业分析师需要花费数天甚至数周才能完成的专业研究报告,现在借助这项突破性功能,只需5-30分钟就能完成。这个堪比"AI研究员"的功能,能够自主分析复杂的专业信息,实时查找和综合数百个在线资源,最终生成一份专业水准的完整报告。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

图源:OpenAI

这个强大功能由即将推出的OpenAI o3模型的特制版本提供支持,该版本经过专门优化,适配网页浏览和数据分析场景。它能够运用推理能力,在互联网上搜索、解读和分析海量的文本、图像和PDF文件,并能根据所遇到的信息灵活调整研究方向。

值得注意的是,在对这个智能体的能力评测中,OpenAI特别对比了DeepSeekR1,称在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,刷新之前的18.2%的纪录。

相比之下,DeepSeek的R1模型的准确率是9.4%。

这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

由此也可以看出,DeepSeek确实让OpenAI感觉到压力不小。

腾讯科技综合了OpenAI的深度研究介绍文档及技术解读直播,梳理了本次发布最值得关注的技术要点。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

图源:OpenAI

化身专业研究员 擅长寻找冷门信息并全网整合

深度研究功能专为金融、科学、政策、工程等领域的高强度知识工作者设计,此类人群需要全面、精准且可靠的调研成果。同时,它也适用于在购买汽车、家电、家具等需要谨慎研究的产品时,希望寻求高度个性化建议的消费者。

1、深度研究的输出附有清晰的引用和对其思考过程的总结,便于用户查阅和验证信息。

2、它尤其擅长寻找冷门、非直观信息,通过一次查询即可帮助用户卸载并加速复杂、耗时的网络调研任务,从而节省时间。

3、深度研究能够独立从网络上发现、推理并整合各类见解。 它在训练过程中采用了与OpenAI o1(OpenAI的首个推理模型)相同的强化学习方法,并针对浏览器和Python工具的使用进行了真实任务训练。

虽然o1在编程、数学等技术领域表现出色,但许多现实挑战需要从多样化的在线资源中广泛收集上下文信息。

深度研究在此基础上进一步拓展了推理能力,弥合了这一差距,使其能够应对人们在工作和日常生活中所面临的各种问题。

在ChatGPT中,用户可以选择消息框中的“深度研究”选项并输入问题。用户可以向ChatGPT说明需求,也可以附件或电子表格,来增加问题的背景信息。 一旦开始运行,侧边栏会显示已采取的步骤和使用的来源的总结。

深度研究完成工作可能需要5到30分钟,具体时间取决于任务的复杂性和所需的信息量。在此期间,用户可以离开或从事其他任务——一旦研究完成,用户将收到通知。最终输出将以聊天中的报告形式呈现。

在未来几周内,OpenAI还将在这类报告中增加嵌入式图像、数据可视化和其他分析结果,以提供更多的清晰度和背景信息。

与深度研究相比,GPT-4o更适合实时、多模态的对话。

对于需要深入探索和详细分析的多方面、特定领域的复杂问题,深度研究能够进行广泛的调研并为每个观点提供引用,这与简单的快速总结不同,它能够提供一份经过充分记录和验证的详细答案,可以直接作为工作成果使用。

端到端强化学习是重点 多模块协同工作

深度研究是通过 端到端强化学习,在多个领域中针对复杂的网络浏览和推理任务进行训练的。

通过这些训练,它学会了如何规划并执行多步骤的操作流程,以找到所需的数据,并在必要时进行回溯以及对实时信息做出反应。

该模型还能够浏览用户上传的文件,利用Python工具绘制并迭代图形,将其生成的图形以及从网站获取的图像嵌入到回答中,并引用其来源中的具体句子或段落。

这种创新的学习方式打破了传统机器学习需要人为划分训练阶段的限制,使模型能够像人类研究者一样进行整体性的思考和决策。

在技术架构层面, Deep Research由四个协同工作的核心模块构成,形成了一个完整的智能研究系统。

第一,是信息发现模块,类似于系统的"探索者"。

它能够敏锐地在学术数据库、科研机构网站、专业论坛等多个平台中定位有价值的信息。这个模块不仅具备强大的检索能力,还配备了先进的信息筛选机制,能够基于关键词、语义关联、时效性和可信度等多维度标准,快速过滤出高质量的研究素材。

第二,是信息综合模块,扮演着"整合者"的角色。

它能够将来自不同渠道的零散信息梳理成系统化的知识体系。无论是处理文字报告、分析数据图表,还是理解专业图片,这个模块都能够准确把握信息之间的逻辑关系,提炼出关键要点。

例如,在处理科技领域的研究任务时,它能够将技术原理、应用案例和发展趋势等多个维度的信息融会贯通,形成完整的技术分析报告。

第三,是推理模块,赋予了系统类人的思考能力。

它运用逻辑推理和知识图谱技术,对收集到的信息进行深度分析和推导。在面对复杂的科学问题时,推理模块能够基于已知事实进行严谨的论证;在进行市场分析时,它会综合考虑历史数据、市场动态和政策环境,做出合理的预测。更重要的是,这个模块具备自我修正能力,能够根据新发现的信息及时调整推理路径。

第四,是输出模块,是系统的"表达者",负责将研究成果转化为专业的呈现形式。

它能够根据用户需求,生成格式规范的报告、论文或分析图表。在这个过程中,系统会严格遵循学术规范,为每个结论提供准确的来源引用,确保研究成果的可靠性和专业性。

这几个模型的协同工作,类似于一个多Agent的协同工作系统。Deep Research系统根据任务的复杂程度,可投入5-30分钟甚至更长时间进行深入研究,并在侧边栏显示出它的工作过程,用户在这个过程中还可以跳出来做别的工作,等模型完成思考后,会收到推送的通知。这种机制的设计,让产品的能力能发挥更好,且照顾到了用户的体验。

注:模型浏览得越多,对浏览内容思考得越深入,其表现就越好,这就是为什么给它思考时间很重要。

HLE测试达到了26.6%的准确率

在这样的技术底层之上,深度研究在众多针对现实问题的公开评估中达到了新的高度。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

注:深度研究与各模型在人类最后的考试中的成绩

值得注意的是,在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,创下新高。

相比之下,DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

与OpenAI的o1模型相比,深度研究的模型在化学、人文社科和数学领域取得了显著进步。它通过有效寻找专业信息,展现了类似人类的处理方式。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

注:深度研究在GAIA基准测试中的成绩

在GAIA基准测试中,深度研究所使用的模型达到了最前沿水平(State of the Art,SOTA),并登上了外部排行榜首位。

GAIA是一项公开的基准测试,专门用于评估人工智能在现实世界问题上的表现。该测试包含三个难度层级的问题,涵盖广泛的实际应用场景。成功完成这些任务需要具备推理能力、多模态交互能力、网络浏览能力以及工具使用熟练度。

在对多个领域的专家级任务进行内部评估时,深度研究被领域专家评定为能够自动化完成数小时复杂的、手工调查工作。

深度研究解锁了诸多新的能力,但目前仍处于早期阶段,存在一些局限性。根据内部评估,尽管其错误率显著低于现有的ChatGPT模型,但深度研究仍可能在回答中生成虚假信息或做出错误推断。

此外,它可能难以区分权威信息与谣言,并且在置信度校准方面存在不足,常常无法准确传达不确定性。在发布初期,报告和引用可能会出现一些格式错误,且任务启动可能需要更长时间。不过,OpenAI预计随着更多使用和时间的推移,这些问题将迅速得到改善。

Pro用户每月最多可用100次

深度研究在ChatGPT中的使用目前对计算资源的需求较高。查询所需的研究时间越长,所需的推理计算量就越大。 目前,OpenAI已推出针对Pro用户的优化版本,每月最多支持100次查询。

接下来,Plus和Team用户将获得访问权限,随后是企业用户。目前,OpenAI仍在努力为英国、瑞士和欧洲经济区的用户提供访问权限。

所有付费用户将很快在深度研究的速率限制方面获得显著提升。OpenAI计划在未来推出一个更快速、更具成本效益的版本,该版本由一个较小的模型驱动,但仍能提供高质量的结果。

在未来几周和几个月内,OpenAI将致力于技术基础设施的完善,密切监控当前版本的表现,并进行更严格的测试。这符合OpenAI的迭代部署原则。如果所有安全检查持续符合发布标准,预计将在大约一个月后向Plus用户推出深度研究。

深度研究目前已在ChatGPT网页版上线,并计划在一个月内扩展到移动和桌面应用程序。目前,深度研究能够访问开放网络以及用户上传的文件。未来,用户将能够连接到更多专业化的数据源,扩展其对订阅制或内部资源的访问权限,从而使其输出更加丰富和个性化。

从更长远来看,深度研究与Operator的结合将为用户提供更强大的异步研究和现实世界执行能力。

深度研究能够进行异步在线研究,而Operator能够采取现实世界的行动,两者的结合将使ChatGPT能够执行越来越复杂的任务。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-02-04 05:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

狙击OpenAI 马斯克搞了个AI版“十二罗汉”
...。在知名科幻小说《银河系漫游指南》中,42 就是宇宙的终极答案。xAI 官网列出的重要团队成员|xAI马斯克的玩梗功力是不错的,不过,要实现他认识宇宙这样的终极目标,很显然需
2023-07-13 17:12:00
AI蛋白质折叠:在生命宇宙中漫游,远眺生物经济的流光
...P450酶无法完美契合工业需求,因此改造现有或设计具备新功能的P450酶,从而拓宽其应用范围的需求就应运而生。然而
2024-09-18 15:04:00
人类输给了AI,这一次,事关蛋白质改造
...rotein engineering)的应用潜力巨大,但创造一种具有改进或新功能的新型蛋白质,仍然是一个重复且费力的过程
2024-01-12 13:42:00
四大新功能让生成式AI“如虎添翼”
...道,AIGC技术领域正在喷涌出一些令人兴奋和充满活力的新功能,为富有想象力、有趣且有潜在用处的产品、服务和体验(包括但不限于游戏创作)开辟了新机会。深度学习加聊天近年来,随着
2023-12-15 01:28:00
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...对通用人工智能(AGI),或“(超)人类层级的智能”的终极设想?自1956年达特茅斯会议提出“人工智能”这一概念以来,实现人类水平的智能一直是AI领域的圣杯。今年上半年,终于
2023-12-01 09:21:00
智能床业务表现亮眼,梦百合获鲸潮奖“年度最硬科技奖”
...能产品矩阵正式面世;2020年以来,MLILY梦百合在新技术、新功能、新场景模式上不断探索和深入,力求打通睡眠全链路和全屋智能场景,展现智能睡眠多可能。2023年,MLILY
2023-12-27 15:23:00
抖音试水AI分身,背后透露了什么信号?
...于商家而言方便客户服务。从公告上看,似乎还有一些全新功能尚未完全展示。这一动作恰逢抖音内容生态进入关键转折期——据新榜《2024内容创作者生态报告》显示,截至去年6月,抖音活
2025-02-21 20:19:00
《底特律:变人》全球销量突破800万
...忙改外语作文DeepLWrite测试版上线知名翻译网站DeepL上线了新功能「DeepLWrite」的测试版,可以帮助用户完善写作
2023-01-20 20:55:00
谁更会玩?数码圈愚人节整活大赏:有人整科幻,有人玩AI
...不少厂商会发布一些让大家意想不到的“新产品”或是“新功能”,不仅娱乐效果拉满,还能达到很好的品牌宣传效果。那么笔者就来带大家来看看,今年厂商们又开了哪些脑洞,带来了什么“黑科
2024-04-04 15:00:00
更多关于科技的资讯:
双城耀国庆 绮梦筑新章——恐龙园集团文旅产品“出圈”更“出彩”
今年国庆、中秋假期恐龙园集团旗下环球恐龙城与东方盐湖城凭借全新业态与沉浸式体验双双跻身长三角文旅“顶流”双节期间,约62
2025-10-09 21:49:00
NBA中国携手阿里云开启多年合作,球迷互动体验新惊喜在哪?
10月9日,NBA中国和阿里云宣布达成多年合作,阿里云将正式成为NBA中国官方云计算与人工智能合作伙伴,基于通义千问大模型和云计算基础设施
2025-10-09 22:19:00
获充换电大会官方推荐及星级认证, 公牛充电桩全场景方案引关注
9月27日至29日,2025中国汽车充换电生态大会在合肥举行,此次大会由国家能源局电力司、安徽省汽车办、中国汽车工业协会共同指导
2025-10-09 17:04:00
“北京榜样•最美互联网从业者”提名人选|我爱我家陈少亮:数字浪潮中的筑梦人
2025年的北京,秋阳穿过写字楼玻璃幕墙,在键盘上投下斑驳光影。在我爱我家集团总部技术中心,陈少亮正盯着屏幕上的数据流图
2025-10-09 17:05:00
中新经纬10月9日电 工信部网站9日消息,工业和信息化部、国家标准化管理委员会近期联合发布《云计算综合标准化体系建设指南(2025版)》(下称《指南》)
2025-10-09 13:06:00
当下,网络热搜榜单已经成为我们感知世界的一个重要窗口。这个窗口展示的内容是否真实、健康、积极,直接影响着数亿网民的认知判断
2025-10-09 10:31:00
高低2025年国庆中秋双节,中国电影市场成绩亮眼:国庆档总票房破17亿元,10月2日年度总票房达425.02亿元,超2024年全年
2025-10-09 10:49:00
厦门网讯(厦门日报记者 李晓平)如今,拍照不再停留在平面,“一站式”3D人像打印,正让影像“立”起来,成为更多人的选择
2025-10-08 08:12:00
小牛FX风速款首销战报:5小时全渠道销量14252台,以“价值重构”引爆全民抢购潮
2025年9月29日,全球高端智能电动车领导品牌小牛电动正式发布FX风速款首销战报。数据显示,这款被业界称为“价格屠夫”的新品在9月28日首发后
2025-10-08 09:00:00
稳就业 稳企业 稳市场 稳预期|从 “设备制造” 到 “全链服务”:陕西电子长岭电气纺织机电产业的进阶之路
9月29日,由陕西省委宣传部举办的“稳就业、稳企业、稳市场、稳预期”主题媒体行活动,带领陕西多家主流媒体走进陕西电子陕西长岭电气有限责任公司参观考察
2025-10-08 17:51:00
近日,中国物流与采购联合会公布全国第十批5A级供应链服务企业名单,华远国际陆港集团正式通过评审,获评“5A级供应链服务企业”
2025-10-08 18:01:00
货丰价稳、活动密集、销售井喷、消费升级……在这个中秋国庆假期,我市消费市场“热”力值拉满,处处繁荣兴旺、活力十足。10月8日
2025-10-08 18:32:00
佳盛机电乘风而上,今年前8月产值同比增长超38%抢占新赛道,270多名员工假期忙“冲刺”南报网讯(通讯员单维亮记者张希)“我们是智能电网产业链条上的配套企业
2025-10-07 08:41:00
培育壮大十大千亿级产业集群丨十堰臻融:创新与技改“双轮”驱动 产值同比增长30%
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新是提升核心竞争力关键。十堰臻融汽车科技有限公司以智能化装备升级与专利技术研发为双引擎
2025-10-07 20:43:00
沉浸式AR科技盛宴:打造“可触摸”的科普实验室,重构科普新形态
这个国庆去哪玩?中国科学技术馆告诉你!2025年10月1日——10月7日由中国科学技术馆、北京峰火文化科技有限公司、Rokid联合打造的以“探境・AR科技智慧”为主题的AR体验活动正火热开展中
2025-10-07 09:05:00