• 我的订阅
  • 科技

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

类别:科技 发布时间:2025-02-04 04:25:00 来源:36氪

北京时间2月3日上午,OpenAI正式推出面向深度研究领域的智能体产品深度研究(Deep research)功能。

曾经一位经验丰富的行业分析师需要花费数天甚至数周才能完成的专业研究报告,现在借助这项突破性功能,只需5-30分钟就能完成。这个堪比"AI研究员"的功能,能够自主分析复杂的专业信息,实时查找和综合数百个在线资源,最终生成一份专业水准的完整报告。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

图源:OpenAI

这个强大功能由即将推出的OpenAI o3模型的特制版本提供支持,该版本经过专门优化,适配网页浏览和数据分析场景。它能够运用推理能力,在互联网上搜索、解读和分析海量的文本、图像和PDF文件,并能根据所遇到的信息灵活调整研究方向。

值得注意的是,在对这个智能体的能力评测中,OpenAI特别对比了DeepSeekR1,称在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,刷新之前的18.2%的纪录。

相比之下,DeepSeek的R1模型的准确率是9.4%。

这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

由此也可以看出,DeepSeek确实让OpenAI感觉到压力不小。

腾讯科技综合了OpenAI的深度研究介绍文档及技术解读直播,梳理了本次发布最值得关注的技术要点。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

图源:OpenAI

化身专业研究员 擅长寻找冷门信息并全网整合

深度研究功能专为金融、科学、政策、工程等领域的高强度知识工作者设计,此类人群需要全面、精准且可靠的调研成果。同时,它也适用于在购买汽车、家电、家具等需要谨慎研究的产品时,希望寻求高度个性化建议的消费者。

1、深度研究的输出附有清晰的引用和对其思考过程的总结,便于用户查阅和验证信息。

2、它尤其擅长寻找冷门、非直观信息,通过一次查询即可帮助用户卸载并加速复杂、耗时的网络调研任务,从而节省时间。

3、深度研究能够独立从网络上发现、推理并整合各类见解。 它在训练过程中采用了与OpenAI o1(OpenAI的首个推理模型)相同的强化学习方法,并针对浏览器和Python工具的使用进行了真实任务训练。

虽然o1在编程、数学等技术领域表现出色,但许多现实挑战需要从多样化的在线资源中广泛收集上下文信息。

深度研究在此基础上进一步拓展了推理能力,弥合了这一差距,使其能够应对人们在工作和日常生活中所面临的各种问题。

在ChatGPT中,用户可以选择消息框中的“深度研究”选项并输入问题。用户可以向ChatGPT说明需求,也可以附件或电子表格,来增加问题的背景信息。 一旦开始运行,侧边栏会显示已采取的步骤和使用的来源的总结。

深度研究完成工作可能需要5到30分钟,具体时间取决于任务的复杂性和所需的信息量。在此期间,用户可以离开或从事其他任务——一旦研究完成,用户将收到通知。最终输出将以聊天中的报告形式呈现。

在未来几周内,OpenAI还将在这类报告中增加嵌入式图像、数据可视化和其他分析结果,以提供更多的清晰度和背景信息。

与深度研究相比,GPT-4o更适合实时、多模态的对话。

对于需要深入探索和详细分析的多方面、特定领域的复杂问题,深度研究能够进行广泛的调研并为每个观点提供引用,这与简单的快速总结不同,它能够提供一份经过充分记录和验证的详细答案,可以直接作为工作成果使用。

端到端强化学习是重点 多模块协同工作

深度研究是通过 端到端强化学习,在多个领域中针对复杂的网络浏览和推理任务进行训练的。

通过这些训练,它学会了如何规划并执行多步骤的操作流程,以找到所需的数据,并在必要时进行回溯以及对实时信息做出反应。

该模型还能够浏览用户上传的文件,利用Python工具绘制并迭代图形,将其生成的图形以及从网站获取的图像嵌入到回答中,并引用其来源中的具体句子或段落。

这种创新的学习方式打破了传统机器学习需要人为划分训练阶段的限制,使模型能够像人类研究者一样进行整体性的思考和决策。

在技术架构层面, Deep Research由四个协同工作的核心模块构成,形成了一个完整的智能研究系统。

第一,是信息发现模块,类似于系统的"探索者"。

它能够敏锐地在学术数据库、科研机构网站、专业论坛等多个平台中定位有价值的信息。这个模块不仅具备强大的检索能力,还配备了先进的信息筛选机制,能够基于关键词、语义关联、时效性和可信度等多维度标准,快速过滤出高质量的研究素材。

第二,是信息综合模块,扮演着"整合者"的角色。

它能够将来自不同渠道的零散信息梳理成系统化的知识体系。无论是处理文字报告、分析数据图表,还是理解专业图片,这个模块都能够准确把握信息之间的逻辑关系,提炼出关键要点。

例如,在处理科技领域的研究任务时,它能够将技术原理、应用案例和发展趋势等多个维度的信息融会贯通,形成完整的技术分析报告。

第三,是推理模块,赋予了系统类人的思考能力。

它运用逻辑推理和知识图谱技术,对收集到的信息进行深度分析和推导。在面对复杂的科学问题时,推理模块能够基于已知事实进行严谨的论证;在进行市场分析时,它会综合考虑历史数据、市场动态和政策环境,做出合理的预测。更重要的是,这个模块具备自我修正能力,能够根据新发现的信息及时调整推理路径。

第四,是输出模块,是系统的"表达者",负责将研究成果转化为专业的呈现形式。

它能够根据用户需求,生成格式规范的报告、论文或分析图表。在这个过程中,系统会严格遵循学术规范,为每个结论提供准确的来源引用,确保研究成果的可靠性和专业性。

这几个模型的协同工作,类似于一个多Agent的协同工作系统。Deep Research系统根据任务的复杂程度,可投入5-30分钟甚至更长时间进行深入研究,并在侧边栏显示出它的工作过程,用户在这个过程中还可以跳出来做别的工作,等模型完成思考后,会收到推送的通知。这种机制的设计,让产品的能力能发挥更好,且照顾到了用户的体验。

注:模型浏览得越多,对浏览内容思考得越深入,其表现就越好,这就是为什么给它思考时间很重要。

HLE测试达到了26.6%的准确率

在这样的技术底层之上,深度研究在众多针对现实问题的公开评估中达到了新的高度。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

注:深度研究与各模型在人类最后的考试中的成绩

值得注意的是,在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,创下新高。

相比之下,DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

与OpenAI的o1模型相比,深度研究的模型在化学、人文社科和数学领域取得了显著进步。它通过有效寻找专业信息,展现了类似人类的处理方式。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

注:深度研究在GAIA基准测试中的成绩

在GAIA基准测试中,深度研究所使用的模型达到了最前沿水平(State of the Art,SOTA),并登上了外部排行榜首位。

GAIA是一项公开的基准测试,专门用于评估人工智能在现实世界问题上的表现。该测试包含三个难度层级的问题,涵盖广泛的实际应用场景。成功完成这些任务需要具备推理能力、多模态交互能力、网络浏览能力以及工具使用熟练度。

在对多个领域的专家级任务进行内部评估时,深度研究被领域专家评定为能够自动化完成数小时复杂的、手工调查工作。

深度研究解锁了诸多新的能力,但目前仍处于早期阶段,存在一些局限性。根据内部评估,尽管其错误率显著低于现有的ChatGPT模型,但深度研究仍可能在回答中生成虚假信息或做出错误推断。

此外,它可能难以区分权威信息与谣言,并且在置信度校准方面存在不足,常常无法准确传达不确定性。在发布初期,报告和引用可能会出现一些格式错误,且任务启动可能需要更长时间。不过,OpenAI预计随着更多使用和时间的推移,这些问题将迅速得到改善。

Pro用户每月最多可用100次

深度研究在ChatGPT中的使用目前对计算资源的需求较高。查询所需的研究时间越长,所需的推理计算量就越大。 目前,OpenAI已推出针对Pro用户的优化版本,每月最多支持100次查询。

接下来,Plus和Team用户将获得访问权限,随后是企业用户。目前,OpenAI仍在努力为英国、瑞士和欧洲经济区的用户提供访问权限。

所有付费用户将很快在深度研究的速率限制方面获得显著提升。OpenAI计划在未来推出一个更快速、更具成本效益的版本,该版本由一个较小的模型驱动,但仍能提供高质量的结果。

在未来几周和几个月内,OpenAI将致力于技术基础设施的完善,密切监控当前版本的表现,并进行更严格的测试。这符合OpenAI的迭代部署原则。如果所有安全检查持续符合发布标准,预计将在大约一个月后向Plus用户推出深度研究。

深度研究目前已在ChatGPT网页版上线,并计划在一个月内扩展到移动和桌面应用程序。目前,深度研究能够访问开放网络以及用户上传的文件。未来,用户将能够连接到更多专业化的数据源,扩展其对订阅制或内部资源的访问权限,从而使其输出更加丰富和个性化。

从更长远来看,深度研究与Operator的结合将为用户提供更强大的异步研究和现实世界执行能力。

深度研究能够进行异步在线研究,而Operator能够采取现实世界的行动,两者的结合将使ChatGPT能够执行越来越复杂的任务。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-02-04 05:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

狙击OpenAI 马斯克搞了个AI版“十二罗汉”
...。在知名科幻小说《银河系漫游指南》中,42 就是宇宙的终极答案。xAI 官网列出的重要团队成员|xAI马斯克的玩梗功力是不错的,不过,要实现他认识宇宙这样的终极目标,很显然需
2023-07-13 17:12:00
AI蛋白质折叠:在生命宇宙中漫游,远眺生物经济的流光
...P450酶无法完美契合工业需求,因此改造现有或设计具备新功能的P450酶,从而拓宽其应用范围的需求就应运而生。然而
2024-09-18 15:04:00
人类输给了AI,这一次,事关蛋白质改造
...rotein engineering)的应用潜力巨大,但创造一种具有改进或新功能的新型蛋白质,仍然是一个重复且费力的过程
2024-01-12 13:42:00
四大新功能让生成式AI“如虎添翼”
...道,AIGC技术领域正在喷涌出一些令人兴奋和充满活力的新功能,为富有想象力、有趣且有潜在用处的产品、服务和体验(包括但不限于游戏创作)开辟了新机会。深度学习加聊天近年来,随着
2023-12-15 01:28:00
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...对通用人工智能(AGI),或“(超)人类层级的智能”的终极设想?自1956年达特茅斯会议提出“人工智能”这一概念以来,实现人类水平的智能一直是AI领域的圣杯。今年上半年,终于
2023-12-01 09:21:00
智能床业务表现亮眼,梦百合获鲸潮奖“年度最硬科技奖”
...能产品矩阵正式面世;2020年以来,MLILY梦百合在新技术、新功能、新场景模式上不断探索和深入,力求打通睡眠全链路和全屋智能场景,展现智能睡眠多可能。2023年,MLILY
2023-12-27 15:23:00
抖音试水AI分身,背后透露了什么信号?
...于商家而言方便客户服务。从公告上看,似乎还有一些全新功能尚未完全展示。这一动作恰逢抖音内容生态进入关键转折期——据新榜《2024内容创作者生态报告》显示,截至去年6月,抖音活
2025-02-21 20:19:00
《底特律:变人》全球销量突破800万
...忙改外语作文DeepLWrite测试版上线知名翻译网站DeepL上线了新功能「DeepLWrite」的测试版,可以帮助用户完善写作
2023-01-20 20:55:00
谁更会玩?数码圈愚人节整活大赏:有人整科幻,有人玩AI
...不少厂商会发布一些让大家意想不到的“新产品”或是“新功能”,不仅娱乐效果拉满,还能达到很好的品牌宣传效果。那么笔者就来带大家来看看,今年厂商们又开了哪些脑洞,带来了什么“黑科
2024-04-04 15:00:00
更多关于科技的资讯:
1月8日,贵州省商务厅发布《关于发放家电产品以旧换新、数码和智能产品购新活动补贴券相关事项的公告》(下称《公告》),明确2026年贵州家电产品以旧换新
2026-01-09 23:02:00
人工智能、物联网与5G技术的成熟迭代,让智能家居家电产品从高端小众走向大众消费,成为现代家庭标配。近日,江苏省消费者权益保护委员会发布专项调查报告
2026-01-09 17:10:00
动漫周边衍生品热销
动漫周边行业作为文化产业的重要组成部分,近年来呈现出快速发展的态势。近日,记者走访位于北京王府井的一家大型动漫主题实体店发现
2026-01-09 17:10:00
“冻鲜互变”仍保鲜 保税区进口牛肉凭啥这么牛?
大河网讯 进口冰冻牛肉,由冻转鲜,再由鲜转冻……虽经多次变身,仍然“鲜”活诱人,这里的牛肉凭啥这么牛?1月8日,记者走进郑州新郑综合保税区首个生鲜产品加工项目——省重点项目南洋优鲜超级工厂
2026-01-09 17:18:00
《文旅短剧活力城市指数》年度报告日前发布,太原和重庆、大同、东莞等8座城市入选“最具创新价值城市”榜单。《文旅短剧活力城市指数》(简称《指数》)由中国人民大学新闻学院
2026-01-09 17:58:00
张宣科技:智维创新赋能氢冶金高效运行
河北新闻网讯(郭晓通、王杨、范俊慧)全球首例120万吨氢冶金示范工程一期项目高效运行,背后有着设备维护创新硬核支撑的努力
2026-01-09 18:13:00
贵定税务:“全链条服务”点亮眼镜零售行业“睛”彩路
多彩贵州网讯 “现在付款后消费者自己在手机上动动手指就能收到发票,节省了消费者的时间,也节约了我们的人力,税务部门的管理服务让我们经营更便捷了
2026-01-09 17:23:00
【劲牌故事荟 大家谈友好】“四个友好”引领劲牌构建健康可持续新生态
□谭金山(湖北省社科联“文安平”团队、宜昌市西陵区市场监管局)企业的发展如同时代浪潮中的一叶扁舟,既需乘风破浪,更需掌舵定向
2026-01-09 14:15:00
UU远程2026远程协助重磅升级:被控免登录、自定义验证码等率先上线
引言:网易UU远程2026年即将迎来远程协助升级三连,远程协助功能实现多场景全面升级近日,网易 UU 远程迎来 2026 年首次重磅版本更新
2026-01-09 14:18:00
清华大学携手阿里巴巴共筑AI安全防线 启动大模型与智能体安全研究
近日,阿里巴巴集团与清华大学签订协议,启动智能体与多模态安全产学研深度融合专项合作。双方此次合作为期5年,聚焦中国AI用户在真实应用场景中面临的核心安全挑战
2026-01-09 14:23:00
中国故事海外热播、“泰国模式”全球复制,爱奇艺探索流媒体出海的“长期主义”
2025年,是爱奇艺海外业务进入稳定期之后,增速最高的一年。第三季度,爱奇艺国际版日均会员数创下历史新高,海外会员收入同比增长超过40%
2026-01-09 14:53:00
为进一步优化知识产权服务供给,打通创新成果转化通道,提升知识产权公共服务效能,上饶市“人工智能+”知识产权大数据服务平台(http://shr
2026-01-09 15:04:00
从五金功能件制造者到智能睡眠守护者,喜安思“守护狮”的觉醒之路!
在珠江之畔制造业奔腾的脉搏里,总有一群敢想敢干敢拼的人,让这片沃土跃动出一个又一个传奇,而喜安思智能床垫就是其中之一,喜安思创始人梁富城与陈傲鹏更是其中佼佼者
2026-01-09 15:35:00
近日,【同程商旅】联合【曹操出行】,聚焦国内企业差旅交通全景,重磅发布《2026中国企业差旅交通出行数据研究报告》。发现价值“新流向”国际出行逆势增长
2026-01-09 15:35:00
悍高集团股份有限公司接待44家机构调研,战略清晰彰显经营韧性
随着家居行业逐步从增量市场迈向存量市场,家居五金企业如何找到新的增长曲线,成为考验企业战略定力与运营能力的关键。近期,悍高集团股份有限公司(董事长为悍高欧锦锋)接受包括百嘉基金
2026-01-09 15:35:00