• 我的订阅
  • 科技

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

类别:科技 发布时间:2025-02-04 04:25:00 来源:36氪

北京时间2月3日上午,OpenAI正式推出面向深度研究领域的智能体产品深度研究(Deep research)功能。

曾经一位经验丰富的行业分析师需要花费数天甚至数周才能完成的专业研究报告,现在借助这项突破性功能,只需5-30分钟就能完成。这个堪比"AI研究员"的功能,能够自主分析复杂的专业信息,实时查找和综合数百个在线资源,最终生成一份专业水准的完整报告。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

图源:OpenAI

这个强大功能由即将推出的OpenAI o3模型的特制版本提供支持,该版本经过专门优化,适配网页浏览和数据分析场景。它能够运用推理能力,在互联网上搜索、解读和分析海量的文本、图像和PDF文件,并能根据所遇到的信息灵活调整研究方向。

值得注意的是,在对这个智能体的能力评测中,OpenAI特别对比了DeepSeekR1,称在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,刷新之前的18.2%的纪录。

相比之下,DeepSeek的R1模型的准确率是9.4%。

这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

由此也可以看出,DeepSeek确实让OpenAI感觉到压力不小。

腾讯科技综合了OpenAI的深度研究介绍文档及技术解读直播,梳理了本次发布最值得关注的技术要点。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

图源:OpenAI

化身专业研究员 擅长寻找冷门信息并全网整合

深度研究功能专为金融、科学、政策、工程等领域的高强度知识工作者设计,此类人群需要全面、精准且可靠的调研成果。同时,它也适用于在购买汽车、家电、家具等需要谨慎研究的产品时,希望寻求高度个性化建议的消费者。

1、深度研究的输出附有清晰的引用和对其思考过程的总结,便于用户查阅和验证信息。

2、它尤其擅长寻找冷门、非直观信息,通过一次查询即可帮助用户卸载并加速复杂、耗时的网络调研任务,从而节省时间。

3、深度研究能够独立从网络上发现、推理并整合各类见解。 它在训练过程中采用了与OpenAI o1(OpenAI的首个推理模型)相同的强化学习方法,并针对浏览器和Python工具的使用进行了真实任务训练。

虽然o1在编程、数学等技术领域表现出色,但许多现实挑战需要从多样化的在线资源中广泛收集上下文信息。

深度研究在此基础上进一步拓展了推理能力,弥合了这一差距,使其能够应对人们在工作和日常生活中所面临的各种问题。

在ChatGPT中,用户可以选择消息框中的“深度研究”选项并输入问题。用户可以向ChatGPT说明需求,也可以附件或电子表格,来增加问题的背景信息。 一旦开始运行,侧边栏会显示已采取的步骤和使用的来源的总结。

深度研究完成工作可能需要5到30分钟,具体时间取决于任务的复杂性和所需的信息量。在此期间,用户可以离开或从事其他任务——一旦研究完成,用户将收到通知。最终输出将以聊天中的报告形式呈现。

在未来几周内,OpenAI还将在这类报告中增加嵌入式图像、数据可视化和其他分析结果,以提供更多的清晰度和背景信息。

与深度研究相比,GPT-4o更适合实时、多模态的对话。

对于需要深入探索和详细分析的多方面、特定领域的复杂问题,深度研究能够进行广泛的调研并为每个观点提供引用,这与简单的快速总结不同,它能够提供一份经过充分记录和验证的详细答案,可以直接作为工作成果使用。

端到端强化学习是重点 多模块协同工作

深度研究是通过 端到端强化学习,在多个领域中针对复杂的网络浏览和推理任务进行训练的。

通过这些训练,它学会了如何规划并执行多步骤的操作流程,以找到所需的数据,并在必要时进行回溯以及对实时信息做出反应。

该模型还能够浏览用户上传的文件,利用Python工具绘制并迭代图形,将其生成的图形以及从网站获取的图像嵌入到回答中,并引用其来源中的具体句子或段落。

这种创新的学习方式打破了传统机器学习需要人为划分训练阶段的限制,使模型能够像人类研究者一样进行整体性的思考和决策。

在技术架构层面, Deep Research由四个协同工作的核心模块构成,形成了一个完整的智能研究系统。

第一,是信息发现模块,类似于系统的"探索者"。

它能够敏锐地在学术数据库、科研机构网站、专业论坛等多个平台中定位有价值的信息。这个模块不仅具备强大的检索能力,还配备了先进的信息筛选机制,能够基于关键词、语义关联、时效性和可信度等多维度标准,快速过滤出高质量的研究素材。

第二,是信息综合模块,扮演着"整合者"的角色。

它能够将来自不同渠道的零散信息梳理成系统化的知识体系。无论是处理文字报告、分析数据图表,还是理解专业图片,这个模块都能够准确把握信息之间的逻辑关系,提炼出关键要点。

例如,在处理科技领域的研究任务时,它能够将技术原理、应用案例和发展趋势等多个维度的信息融会贯通,形成完整的技术分析报告。

第三,是推理模块,赋予了系统类人的思考能力。

它运用逻辑推理和知识图谱技术,对收集到的信息进行深度分析和推导。在面对复杂的科学问题时,推理模块能够基于已知事实进行严谨的论证;在进行市场分析时,它会综合考虑历史数据、市场动态和政策环境,做出合理的预测。更重要的是,这个模块具备自我修正能力,能够根据新发现的信息及时调整推理路径。

第四,是输出模块,是系统的"表达者",负责将研究成果转化为专业的呈现形式。

它能够根据用户需求,生成格式规范的报告、论文或分析图表。在这个过程中,系统会严格遵循学术规范,为每个结论提供准确的来源引用,确保研究成果的可靠性和专业性。

这几个模型的协同工作,类似于一个多Agent的协同工作系统。Deep Research系统根据任务的复杂程度,可投入5-30分钟甚至更长时间进行深入研究,并在侧边栏显示出它的工作过程,用户在这个过程中还可以跳出来做别的工作,等模型完成思考后,会收到推送的通知。这种机制的设计,让产品的能力能发挥更好,且照顾到了用户的体验。

注:模型浏览得越多,对浏览内容思考得越深入,其表现就越好,这就是为什么给它思考时间很重要。

HLE测试达到了26.6%的准确率

在这样的技术底层之上,深度研究在众多针对现实问题的公开评估中达到了新的高度。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

注:深度研究与各模型在人类最后的考试中的成绩

值得注意的是,在Humanity’s Last Exam(简称HLE)测试中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,创下新高。

相比之下,DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。

与OpenAI的o1模型相比,深度研究的模型在化学、人文社科和数学领域取得了显著进步。它通过有效寻找专业信息,展现了类似人类的处理方式。

OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1

注:深度研究在GAIA基准测试中的成绩

在GAIA基准测试中,深度研究所使用的模型达到了最前沿水平(State of the Art,SOTA),并登上了外部排行榜首位。

GAIA是一项公开的基准测试,专门用于评估人工智能在现实世界问题上的表现。该测试包含三个难度层级的问题,涵盖广泛的实际应用场景。成功完成这些任务需要具备推理能力、多模态交互能力、网络浏览能力以及工具使用熟练度。

在对多个领域的专家级任务进行内部评估时,深度研究被领域专家评定为能够自动化完成数小时复杂的、手工调查工作。

深度研究解锁了诸多新的能力,但目前仍处于早期阶段,存在一些局限性。根据内部评估,尽管其错误率显著低于现有的ChatGPT模型,但深度研究仍可能在回答中生成虚假信息或做出错误推断。

此外,它可能难以区分权威信息与谣言,并且在置信度校准方面存在不足,常常无法准确传达不确定性。在发布初期,报告和引用可能会出现一些格式错误,且任务启动可能需要更长时间。不过,OpenAI预计随着更多使用和时间的推移,这些问题将迅速得到改善。

Pro用户每月最多可用100次

深度研究在ChatGPT中的使用目前对计算资源的需求较高。查询所需的研究时间越长,所需的推理计算量就越大。 目前,OpenAI已推出针对Pro用户的优化版本,每月最多支持100次查询。

接下来,Plus和Team用户将获得访问权限,随后是企业用户。目前,OpenAI仍在努力为英国、瑞士和欧洲经济区的用户提供访问权限。

所有付费用户将很快在深度研究的速率限制方面获得显著提升。OpenAI计划在未来推出一个更快速、更具成本效益的版本,该版本由一个较小的模型驱动,但仍能提供高质量的结果。

在未来几周和几个月内,OpenAI将致力于技术基础设施的完善,密切监控当前版本的表现,并进行更严格的测试。这符合OpenAI的迭代部署原则。如果所有安全检查持续符合发布标准,预计将在大约一个月后向Plus用户推出深度研究。

深度研究目前已在ChatGPT网页版上线,并计划在一个月内扩展到移动和桌面应用程序。目前,深度研究能够访问开放网络以及用户上传的文件。未来,用户将能够连接到更多专业化的数据源,扩展其对订阅制或内部资源的访问权限,从而使其输出更加丰富和个性化。

从更长远来看,深度研究与Operator的结合将为用户提供更强大的异步研究和现实世界执行能力。

深度研究能够进行异步在线研究,而Operator能够采取现实世界的行动,两者的结合将使ChatGPT能够执行越来越复杂的任务。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-02-04 05:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

狙击OpenAI 马斯克搞了个AI版“十二罗汉”
...。在知名科幻小说《银河系漫游指南》中,42 就是宇宙的终极答案。xAI 官网列出的重要团队成员|xAI马斯克的玩梗功力是不错的,不过,要实现他认识宇宙这样的终极目标,很显然需
2023-07-13 17:12:00
AI蛋白质折叠:在生命宇宙中漫游,远眺生物经济的流光
...P450酶无法完美契合工业需求,因此改造现有或设计具备新功能的P450酶,从而拓宽其应用范围的需求就应运而生。然而
2024-09-18 15:04:00
人类输给了AI,这一次,事关蛋白质改造
...rotein engineering)的应用潜力巨大,但创造一种具有改进或新功能的新型蛋白质,仍然是一个重复且费力的过程
2024-01-12 13:42:00
四大新功能让生成式AI“如虎添翼”
...道,AIGC技术领域正在喷涌出一些令人兴奋和充满活力的新功能,为富有想象力、有趣且有潜在用处的产品、服务和体验(包括但不限于游戏创作)开辟了新机会。深度学习加聊天近年来,随着
2023-12-15 01:28:00
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...对通用人工智能(AGI),或“(超)人类层级的智能”的终极设想?自1956年达特茅斯会议提出“人工智能”这一概念以来,实现人类水平的智能一直是AI领域的圣杯。今年上半年,终于
2023-12-01 09:21:00
智能床业务表现亮眼,梦百合获鲸潮奖“年度最硬科技奖”
...能产品矩阵正式面世;2020年以来,MLILY梦百合在新技术、新功能、新场景模式上不断探索和深入,力求打通睡眠全链路和全屋智能场景,展现智能睡眠多可能。2023年,MLILY
2023-12-27 15:23:00
抖音试水AI分身,背后透露了什么信号?
...于商家而言方便客户服务。从公告上看,似乎还有一些全新功能尚未完全展示。这一动作恰逢抖音内容生态进入关键转折期——据新榜《2024内容创作者生态报告》显示,截至去年6月,抖音活
2025-02-21 20:19:00
《底特律:变人》全球销量突破800万
...忙改外语作文DeepLWrite测试版上线知名翻译网站DeepL上线了新功能「DeepLWrite」的测试版,可以帮助用户完善写作
2023-01-20 20:55:00
谁更会玩?数码圈愚人节整活大赏:有人整科幻,有人玩AI
...不少厂商会发布一些让大家意想不到的“新产品”或是“新功能”,不仅娱乐效果拉满,还能达到很好的品牌宣传效果。那么笔者就来带大家来看看,今年厂商们又开了哪些脑洞,带来了什么“黑科
2024-04-04 15:00:00
更多关于科技的资讯:
日销350万!“湖北淘宝第一村”电商直播业绩喜人
电商搭台,产业唱戏。11月11日,在“湖北淘宝第一村”郧西县涧池乡下营村,各大电商企业与网络主播火力全开,创下日销超350万元的好成绩
2025-11-12 19:50:00
河钢张宣科技上月节约外购电成本超670万元
河北新闻网讯(马薇)近日,笔者获悉,河钢集团张宣科技紧扣“决胜四季度,实现双提升”目标,以构建多元化、清洁化发电体系为核心
2025-11-12 16:54:00
在金融业迈向高质量发展新阶段的当下,客户的需求正从“获得金融服务”向“享受金融美好”转变。银行业如何摆脱同质化竞争,真正扎根区域
2025-11-12 15:24:00
“数”智金融・龙泉“量”剑 中州龙泉期货数智平台3.0重磅发布
在数字经济深度赋能资本市场的时代浪潮中,为积极响应证监会金融“五篇大文章”战略部署,2025年11月7日,“数”智金融・龙泉“量”剑——中州龙泉期货数智平台3
2025-11-12 12:56:00
梅特勒托利多 2025 进博会首秀圆满落幕,国产化成果引多方聚焦
为期六天的 2025 年中国国际进口博览会正式落下帷幕,全球精密仪器领军者梅特勒托利多首次参展便交出亮眼答卷。作为受临港政府邀请的重点企业
2025-11-12 12:56:00
高途公考2026年线上事业单位产品发布会盛大召开!
2026年11月5日,高途公考以“豫见高途,事启新程”为主题,召开线上事业单位产品发布会。在就业市场从“学历提升”向“稳定就业”转型的背景下
2025-11-12 12:54:00
中亦科技入选北京市“诚信兴商”倡议企业
近日,由北京市商务局主办的2025年“诚信兴商”北京主题日活动暨第十四届北京企业诚信论坛在京隆重举行。本次活动旨在弘扬诚信经营理念
2025-11-12 11:45:00
南报网讯(记者卫凌云通讯员建萱)11月11日,京东集团成功竞得NO.宁2025Y05地块,京东集团南京研发中心正式落户建邺
2025-11-12 08:05:00
南报网讯(记者张安琪)11月11日下午,2025年“江苏省成果(专利)拍卖季”软件与信息服务产业专场活动在江宁开发区大数据中心举办
2025-11-12 08:06:00
红山路商业综合体打造“年轻力”潮流集中地
11月10日,红山路红山Sparkle耀市开启试运行,首批餐饮店、发廊、健身房等已开业。该项目为铁北红山国际社区商业部分
2025-11-12 08:06:00
2025年11月,“我在IT分销领域深耕三十多年,从诺基亚时代、摩托罗拉、苹果手机到笔记本、算力服务器,见过无数款软硬件产品
2025-11-11 14:38:00
同舟致远•共赢新程 泰凯英上市启航仪式在青岛隆重举行
11月7日,青岛泰凯英专用轮胎股份有限公司在青岛市崂山区成功举行"同舟致远•共赢新程"上市启航仪式。崂山区政府、青岛市上市公司协会
2025-11-11 14:49:00
旅美博士青年钢琴家周海天:在理性与证据中寻找音乐之美
近年来,越来越多青年钢琴赛事在亚洲和北美活跃展开,一批具有国际视野与学术背景的青年评委逐渐走入公众视野。一位拥有中、英
2025-11-11 14:49:00
在中国,为中国 Brother第八届进博会迎收官,多元打印服务受关注
11月10日,第八届中国国际进口博览会(以下简称"进博会")即将盛大落幕。全球知名制造厂商Brother以"In China
2025-11-11 15:20:00
Hape坚守对全球消费者承诺,积极布局供应链保障产品质量与供应
在接受《福布斯》(Forbes)杂志采访时,Hape集团创始人兼总裁Peter Handstein先生表示,目前整个玩具行业正经历一场"过山车"般的考验
2025-11-11 15:20:00