• 我的订阅
  • 科技

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

类别:科技 发布时间:2025-02-04 04:25:00 来源:36氪

北京时间2月3日上午,OpenAI正式推出面向深度研究领域的智能体产品深度研究(Deep research)功能。

曾经一位经验丰富的行业分析师需要花费数天甚至数周才能完成的专业研究报告,现在借助这项突破性功能,只需5-30分钟就能完成。这个堪比"AI研究员"的功能,能够自主分析复杂的专业信息,实时查找和综合数百个在线资源,最终生成一份专业水准的完整报告。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

图源:OpenAI

这个强大功能由即将推出的OpenAI o3模型的特制版本提供支持,该版本经过专门优化,适配网页浏览和数据分析场景。它能够运用推理能力,在互联网上搜索、解读和分析海量的文本、图像和PDF文件,并能根据所遇到的信息灵活调整研究方向。

值得注意的是,在对这个智能体的能力评测中,OpenAI特别对比了DeepSeekR1,称在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,刷新之前的18.2%的纪录。

相比之下,DeepSeek的R1模型的准确率是9.4%。

这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

由此也可以看出,DeepSeek确实让OpenAI感觉到压力不小。

腾讯科技综合了OpenAI的深度研究介绍文档及技术解读直播,梳理了本次发布最值得关注的技术要点。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

图源:OpenAI

化身专业研究员 擅长寻找冷门信息并全网整合

深度研究功能专为金融、科学、政策、工程等领域的高强度知识工作者设计,此类人群需要全面、精准且可靠的调研成果。同时,它也适用于在购买汽车、家电、家具等需要谨慎研究的产品时,希望寻求高度个性化建议的消费者。

1、深度研究的输出附有清晰的引用和对其思考过程的总结,便于用户查阅和验证信息。

2、它尤其擅长寻找冷门、非直观信息,通过一次查询即可帮助用户卸载并加速复杂、耗时的网络调研任务,从而节省时间。

3、深度研究能够独立从网络上发现、推理并整合各类见解。 它在训练过程中采用了与OpenAI o1(OpenAI的首个推理模型)相同的强化学习方法,并针对浏览器和Python工具的使用进行了真实任务训练。

虽然o1在编程、数学等技术领域表现出色,但许多现实挑战需要从多样化的在线资源中广泛收集上下文信息。

深度研究在此基础上进一步拓展了推理能力,弥合了这一差距,使其能够应对人们在工作和日常生活中所面临的各种问题。

在ChatGPT中,用户可以选择消息框中的“深度研究”选项并输入问题。用户可以向ChatGPT说明需求,也可以附件或电子表格,来增加问题的背景信息。 一旦开始运行,侧边栏会显示已采取的步骤和使用的来源的总结。

深度研究完成工作可能需要5到30分钟,具体时间取决于任务的复杂性和所需的信息量。在此期间,用户可以离开或从事其他任务——一旦研究完成,用户将收到通知。最终输出将以聊天中的报告形式呈现。

在未来几周内,OpenAI还将在这类报告中增加嵌入式图像、数据可视化和其他分析结果,以提供更多的清晰度和背景信息。

与深度研究相比,GPT-4o更适合实时、多模态的对话。

对于需要深入探索和详细分析的多方面、特定领域的复杂问题,深度研究能够进行广泛的调研并为每个观点提供引用,这与简单的快速总结不同,它能够提供一份经过充分记录和验证的详细答案,可以直接作为工作成果使用。

端到端强化学习是重点 多模块协同工作

深度研究是通过 端到端强化学习,在多个领域中针对复杂的网络浏览和推理任务进行训练的。

通过这些训练,它学会了如何规划并执行多步骤的操作流程,以找到所需的数据,并在必要时进行回溯以及对实时信息做出反应。

该模型还能够浏览用户上传的文件,利用Python工具绘制并迭代图形,将其生成的图形以及从网站获取的图像嵌入到回答中,并引用其来源中的具体句子或段落。

这种创新的学习方式打破了传统机器学习需要人为划分训练阶段的限制,使模型能够像人类研究者一样进行整体性的思考和决策。

在技术架构层面, Deep Research由四个协同工作的核心模块构成,形成了一个完整的智能研究系统。

第一,是信息发现模块,类似于系统的"探索者"。

它能够敏锐地在学术数据库、科研机构网站、专业论坛等多个平台中定位有价值的信息。这个模块不仅具备强大的检索能力,还配备了先进的信息筛选机制,能够基于关键词、语义关联、时效性和可信度等多维度标准,快速过滤出高质量的研究素材。

第二,是信息综合模块,扮演着"整合者"的角色。

它能够将来自不同渠道的零散信息梳理成系统化的知识体系。无论是处理文字报告、分析数据图表,还是理解专业图片,这个模块都能够准确把握信息之间的逻辑关系,提炼出关键要点。

例如,在处理科技领域的研究任务时,它能够将技术原理、应用案例和发展趋势等多个维度的信息融会贯通,形成完整的技术分析报告。

第三,是推理模块,赋予了系统类人的思考能力。

它运用逻辑推理和知识图谱技术,对收集到的信息进行深度分析和推导。在面对复杂的科学问题时,推理模块能够基于已知事实进行严谨的论证;在进行市场分析时,它会综合考虑历史数据、市场动态和政策环境,做出合理的预测。更重要的是,这个模块具备自我修正能力,能够根据新发现的信息及时调整推理路径。

第四,是输出模块,是系统的"表达者",负责将研究成果转化为专业的呈现形式。

它能够根据用户需求,生成格式规范的报告、论文或分析图表。在这个过程中,系统会严格遵循学术规范,为每个结论提供准确的来源引用,确保研究成果的可靠性和专业性。

这几个模型的协同工作,类似于一个多Agent的协同工作系统。Deep Research系统根据任务的复杂程度,可投入5-30分钟甚至更长时间进行深入研究,并在侧边栏显示出它的工作过程,用户在这个过程中还可以跳出来做别的工作,等模型完成思考后,会收到推送的通知。这种机制的设计,让产品的能力能发挥更好,且照顾到了用户的体验。

注:模型浏览得越多,对浏览内容思考得越深入,其表现就越好,这就是为什么给它思考时间很重要。

HLE测试达到了26.6%的准确率

在这样的技术底层之上,深度研究在众多针对现实问题的公开评估中达到了新的高度。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

注:深度研究与各模型在人类最后的考试中的成绩

值得注意的是,在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,创下新高。

相比之下,DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

与OpenAI的o1模型相比,深度研究的模型在化学、人文社科和数学领域取得了显著进步。它通过有效寻找专业信息,展现了类似人类的处理方式。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

注:深度研究在GAIA基准测试中的成绩

在GAIA基准测试中,深度研究所使用的模型达到了最前沿水平(State of the Art,SOTA),并登上了外部排行榜首位。

GAIA是一项公开的基准测试,专门用于评估人工智能在现实世界问题上的表现。该测试包含三个难度层级的问题,涵盖广泛的实际应用场景。成功完成这些任务需要具备推理能力、多模态交互能力、网络浏览能力以及工具使用熟练度。

在对多个领域的专家级任务进行内部评估时,深度研究被领域专家评定为能够自动化完成数小时复杂的、手工调查工作。

深度研究解锁了诸多新的能力,但目前仍处于早期阶段,存在一些局限性。根据内部评估,尽管其错误率显著低于现有的ChatGPT模型,但深度研究仍可能在回答中生成虚假信息或做出错误推断。

此外,它可能难以区分权威信息与谣言,并且在置信度校准方面存在不足,常常无法准确传达不确定性。在发布初期,报告和引用可能会出现一些格式错误,且任务启动可能需要更长时间。不过,OpenAI预计随着更多使用和时间的推移,这些问题将迅速得到改善。

Pro用户每月最多可用100次

深度研究在ChatGPT中的使用目前对计算资源的需求较高。查询所需的研究时间越长,所需的推理计算量就越大。 目前,OpenAI已推出针对Pro用户的优化版本,每月最多支持100次查询。

接下来,Plus和Team用户将获得访问权限,随后是企业用户。目前,OpenAI仍在努力为英国、瑞士和欧洲经济区的用户提供访问权限。

所有付费用户将很快在深度研究的速率限制方面获得显著提升。OpenAI计划在未来推出一个更快速、更具成本效益的版本,该版本由一个较小的模型驱动,但仍能提供高质量的结果。

在未来几周和几个月内,OpenAI将致力于技术基础设施的完善,密切监控当前版本的表现,并进行更严格的测试。这符合OpenAI的迭代部署原则。如果所有安全检查持续符合发布标准,预计将在大约一个月后向Plus用户推出深度研究。

深度研究目前已在ChatGPT网页版上线,并计划在一个月内扩展到移动和桌面应用程序。目前,深度研究能够访问开放网络以及用户上传的文件。未来,用户将能够连接到更多专业化的数据源,扩展其对订阅制或内部资源的访问权限,从而使其输出更加丰富和个性化。

从更长远来看,深度研究与Operator的结合将为用户提供更强大的异步研究和现实世界执行能力。

深度研究能够进行异步在线研究,而Operator能够采取现实世界的行动,两者的结合将使ChatGPT能够执行越来越复杂的任务。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-02-04 05:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

狙击OpenAI 马斯克搞了个AI版“十二罗汉”
...。在知名科幻小说《银河系漫游指南》中,42 就是宇宙的终极答案。xAI 官网列出的重要团队成员|xAI马斯克的玩梗功力是不错的,不过,要实现他认识宇宙这样的终极目标,很显然需
2023-07-13 17:12:00
AI蛋白质折叠:在生命宇宙中漫游,远眺生物经济的流光
...P450酶无法完美契合工业需求,因此改造现有或设计具备新功能的P450酶,从而拓宽其应用范围的需求就应运而生。然而
2024-09-18 15:04:00
人类输给了AI,这一次,事关蛋白质改造
...rotein engineering)的应用潜力巨大,但创造一种具有改进或新功能的新型蛋白质,仍然是一个重复且费力的过程
2024-01-12 13:42:00
四大新功能让生成式AI“如虎添翼”
...道,AIGC技术领域正在喷涌出一些令人兴奋和充满活力的新功能,为富有想象力、有趣且有潜在用处的产品、服务和体验(包括但不限于游戏创作)开辟了新机会。深度学习加聊天近年来,随着
2023-12-15 01:28:00
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...对通用人工智能(AGI),或“(超)人类层级的智能”的终极设想?自1956年达特茅斯会议提出“人工智能”这一概念以来,实现人类水平的智能一直是AI领域的圣杯。今年上半年,终于
2023-12-01 09:21:00
智能床业务表现亮眼,梦百合获鲸潮奖“年度最硬科技奖”
...能产品矩阵正式面世;2020年以来,MLILY梦百合在新技术、新功能、新场景模式上不断探索和深入,力求打通睡眠全链路和全屋智能场景,展现智能睡眠多可能。2023年,MLILY
2023-12-27 15:23:00
抖音试水AI分身,背后透露了什么信号?
...于商家而言方便客户服务。从公告上看,似乎还有一些全新功能尚未完全展示。这一动作恰逢抖音内容生态进入关键转折期——据新榜《2024内容创作者生态报告》显示,截至去年6月,抖音活
2025-02-21 20:19:00
《底特律:变人》全球销量突破800万
...忙改外语作文DeepLWrite测试版上线知名翻译网站DeepL上线了新功能「DeepLWrite」的测试版,可以帮助用户完善写作
2023-01-20 20:55:00
谁更会玩?数码圈愚人节整活大赏:有人整科幻,有人玩AI
...不少厂商会发布一些让大家意想不到的“新产品”或是“新功能”,不仅娱乐效果拉满,还能达到很好的品牌宣传效果。那么笔者就来带大家来看看,今年厂商们又开了哪些脑洞,带来了什么“黑科
2024-04-04 15:00:00
更多关于科技的资讯:
元梦空间2026马上元梦嘉年华大会即将在蓉举办,开启元宇宙“虚实共生”新纪元
2026年2月3日,一场以“马上元梦·数字新生”为主题的元宇宙行业盛典——元梦空间2026马上元梦嘉年华大会,将在四川成都隆重举行
2026-01-31 08:57:00
零基础学烘焙,2026年1月郑州靠谱的蛋糕培训机构有哪些?
想在郑州学做蛋糕,却不知道选哪家?是零基础想扎实学技能,还是打算创业需要全流程支持?随着烘焙赛道越来越火,郑州的蛋糕培训机构也层出不穷
2026-01-31 08:59:00
定制钻戒哪个好?2026年高性价比国产培育钻品牌深度推荐指南
在当代珠宝消费语境中,“定制钻戒”早已不再只是婚礼场景的专属符号,而逐渐演变为一种承载情感、表达个性与彰显审美的生活方式
2026-01-31 08:59:00
定制钻戒哪个好?2026培育钻戒选购终极攻略:这些高性价比品牌别错过!
在“悦己消费”与“情感表达”日益成为主流的今天,钻戒早已超越传统婚庆符号的单一身份,演变为一种融合科技、美学与个人叙事的现代生活方式
2026-01-31 09:01:00
简单解压易分享 我市涌现一批线下拼豆店
记者体验拼豆。拼豆店里,小朋友认真地将一粒粒塑料豆摆到豆板上。 厦门网讯 (文/图 厦门日报记者 柯笛)马年将至,小马造型和新年主题的拼豆图纸在网上走红
2026-01-31 09:16:00
东南网1月31日讯(福建日报记者 张文奎 通讯员 林文昊) 近日,记者从福州新区集团获悉,该集团投资企业恒美光电迎来重大技术突破
2026-01-31 10:34:00
行业无解的“-57密码”,他用国产元件成功“破解”
日前,一汽大众长春整车制造部总装二车间车身线的LJU控制器在运行过程中突然集中批量报出各种故障代码,其中的变频过流“-57”故障占比达到60%
2026-01-30 23:24:00
当国产航母劈波斩浪,北斗系统指引八方,医疗核心系统的自主可控之路同样刻不容缓。因为,看病靠医生,也靠信息保障,“健康钥匙”掌握在自己手里
2026-01-31 06:41:00
1月16日,太原盒马鲜生茂业天地店在亲贤长风商圈开业。数据显示,盒马鲜生太原首店前三日客流达到13万,太原茂业天地客流量同比增长65%
2026-01-31 07:15:00
摘要:在数字经济背景下,营销数字化转型已成为企业提升市场竞争力的重要战略选择。通过引入数据技术、数字平台和智能工具,企业营销活动的运行逻辑正在发生深刻变化
2026-01-31 05:24:00
摘要:随着企业不动产(CRE)在企业资产结构和战略体系中的重要性不断提升,其管理目标已由单一的成本控制逐步转向价值创造与客户导向
2026-01-31 05:24:00
新春福利来袭!上纵览领顺丰福利券,燕赵家乡年味寄回家
新春将至年味漫卷街巷牵挂亦随团圆脚步愈发浓烈纵览新闻客户端携手顺丰速运重磅打造“年味传情,顺丰到家”新春寄递专属福利以实在优惠为每份心意添力即日起至3月3日打开纵览新闻客户端点击
2026-01-30 21:20:00
深耕快消品设计领域,北京博创设计以国际水准铸就品牌视觉力量
在国内高端品牌设计领域,北京博创设计公司(Bofly Design)凭借近二十年的深耕积淀,以专业的全链路服务能力、众多国际奖项背书及标杆级客户案例
2026-01-30 22:14:00
今天,我们需要一瓶什么样的酒?
多彩贵州网讯 作为一个普通消费者,走在超市琳琅满目的酒水区,或是滑动手机屏幕浏览五花八门的电商页面时,我们常常会停下来思考
2026-01-30 20:05:00
摘要:本文从家校社协同育人空间阻滞、文化断层问题出发,提出了以社区的微空间作为整合枢纽的设计思路。依靠功能复合化布局、地域文化元素的创新转化和VR/AR技术的虚实融合体验来创建起联系家庭
2026-01-30 17:40:00