• 我的订阅
  • 科技

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

类别:科技 发布时间:2024-09-13 13:33:00 来源:机器之心Pro

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

这是 AI 智能体在大部分科学研究中超越人类的第一个案例,或许会彻底改变人类与科学文献互动的方式。

最近一段时间,有关 AI 科学家的研究越来越多。大语言模型(LLM)有望帮助科学家检索、综合和总结文献,提升人们的工作效率,但在研究工作中使用仍然有很多限制。

对于科研来说,事实性至关重要,而大模型会产生幻觉,有时会自信地陈述没有任何现有来源或证据的信息。另外,科学需要极其注重细节,而大模型在面对具有挑战性的推理问题时可能会忽略或误用细节。

最后,目前科学文献的检索和推理基准尚不完善。AI 无法参考整篇文献,而是局限于摘要、在固定语料库上检索,或者只是直接提供相关论文。这些基准不适合作为实际科学研究任务的性能代理,更重要的是,它们通常缺乏与人类表现的直接比较。因此,语言模型和智能体是否适合用于科学研究仍不清楚。

近日,来自 FutureHouse、罗切斯特大学等机构的研究者们尝试构建一个更为强大的科研智能体,并对 AI 系统和人类在三个现实任务上的表现进行严格比较。这三个任务有关搜索整个文献以回答问题;生成一篇有引用的、维基百科风格的科学主题文章;从论文中提取所有主张,并检查它们与所有文献之间的矛盾。

这可能是第一个在多个现实文献搜索任务上评估单个 AI 系统的强大程序。利用新开发的评估方法,研究者探索了多种设计,最终形成了 PaperQA2 系统,它在检索和总结任务上的表现超过了博士生和博士后。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

将 PaperQA2 应用于矛盾检测任务让我们能够大规模识别生物学论文中的矛盾。例如,ZNF804A rs1344706 等位基因对精神分裂症患者的大脑结构有积极影响的说法与后来发表的研究相矛盾,该研究发现 rs1344706 对大脑皮质厚度、表面积和皮质体积的影响会加剧患精神分裂症的风险。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

论文地址:https://storage.googleapis.com/fh-public/paperqa/Language_Agents_Science.pdf GitHub 链接:https://github.com/Future-House/paper-qa

网友纷纷表示这项工作太棒了,并且是开源的。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

回答科学问题

为了评估 AI 系统对科学文献的检索能力,研究者首先生成了 LitQA2,这是一组共 248 个多项选择题,其答案需要从科学文献中检索。LitQA2 问题的设计目的是让答案出现在论文正文中,但不出现在摘要中,理想的情况下,在所有科学文献中只出现一次。这些约束使我们能够通过将系统引用的来源 DOI 与问题创建者最初分配的 DOI 进行匹配来评估回答的准确性(下图 A)。

为了执行这些标准,研究者生成了大量关于最近论文中模糊的中间发现的问题,然后排除了任何现有 AI 系统或人类注释者可以使用替代来源进行回答的问题。它们都是由专家生成的。

在回答 LitQA2 问题时,模型可以通过选择「信息不足,无法回答此问题」来拒绝回答。与先前的研究和实际的科学问题类似,有些问题本来就是无法回答的。研究者评估了两个指标:精确度(即在提供答案时正确回答的问题的比例)和准确度(即所有问题中正确答案的比例)。此外还考虑了召回率,即系统将其答案归因于 LitQA2 中表示的正确源 DOI 的问题的总百分比。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

在开发了 LitQA2 之后,研究者利用它来设计一个科学文献的 AI 系统。在 PaperQA 的启发下,PaperQA2 是一个 RAG 智能体,它将检索和响应生成视为一个多步骤智能体任务,而不是一个直接过程。PaperQA2 将 RAG 分解为工具,使其能够修改其搜索参数,并在生成最终答案之前生成和检查候选答案(下图 A)。

PaperQA2 可以访问「论文搜索」工具,其中智能体模型将用户请求转换为用于识别候选论文的关键字搜索。候选论文被解析为机器可读的文本,并分块以供智能体稍后使用。PaperQA2 使用最先进的文档解析算法(Grobid19),能可靠地解析论文中的章节、表格和引文。找到候选论文后,PaperQA2 可以使用「收集证据」工具,该工具首先使用 top-k 密集向量检索步骤对论文块进行排序,然后进行大模型重新排序和上下文摘要(RCS)步骤。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

在回答 LitQA2 问题时,PaperQA2 平均每道题解析并使用 14.5 ± 0.6(平均值 ± SD,n = 3)篇论文。在 LitQA2 上运行 PaperQA2 可获得 85.2% ± 1.1%(平均值 ± SD,n = 3)的精确度和 66.0% ± 1.2%(平均值 ± SD,n = 3)的准确度。另外,系统在 21.9% ± 0.9%(平均值 ± SD,n = 3)的答案中选择报告「信息不足」(下图 B)。

研究者发现 PaperQA2 在 LitQA2 基准测试中的精确度和准确度均优于其他 RAG 系统。我们还可以发现,除 Elicit 外所有测试的 RAG 系统在精确度和准确度方面均优于非 RAG 前沿模型。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

为了确保 PaperQA2 不会过拟合,从而无法在 LitQA2 上取得优异成绩,研究者在对 PaperQA2 进行大量工程改动后,生成了一组新的 101 个 LitQA2 问题。

PaperQA2 在原始 147 个问题上的准确率与后一组 101 个问题的准确率没有显著差异,这表明在第一阶段的优化已经很好地推广到了新的 LitQA2 问题(下表 2)。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

PaperQA2 性能分析

研究者尝试改变 PaperQA2 的参数,以了解哪些参数决定其准确性(下图 C)。他们创建了一个非智能体版本,其中包含一个硬编码操作序列(论文搜索、收集证据,然后生成答案)。非智能体系统的准确率明显较低(t (3.7)= 3.41,p= 0.015),验证了使用智能体的选择。

研究者将性能差异归因于智能体更好的记忆能力,因为它可以在观察到找到的相关论文数量后返回并更改关键字搜索(论文搜索工具调用)。

结果显示,LitQA2 运行准确度最高时为每个问题进行了 1.26 ± 0.07(平均值 ± SD)次搜索,每个问题进行了 0.46 ± 0.02(平均值 ±SD)次引用遍历,这表明智能体有时会返回进行额外搜索或遍历引用图以收集更多论文。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

为了改进相关块检索,研究者假设,找到的论文对于现有相关块的引用者或被引用者而言将是一种有效的分层索引形式。通过去除「引用遍历」工具验证了这一点,该工具显示准确率有所提高(t (2.55) = 2.14,p= 0.069),DOI 召回率显著提高(t (3) = 3.4,p = 0.022),并在 PaperQA2 流程的所有阶段都是如此。该工具的流程反映了科学家与文献互动的方式。

研究者曾假设解析质量会影响准确度,但 Grobid 解析和更大的块并没有显著提高 LitQA2 的精度、准确度或召回率(下图 6)。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

总结科学主题

为了评估 PaperQA2 的摘要功能,研究者设计了一个名为 WikiCrow 的系统。该系统通过结合多个 PaperQA2 调用来生成有关人类蛋白质编码基因的维基百科风格文章,而这些调用涉及基因的结构、功能、相互作用和临床意义等主题。

研究者使用 WikiCrow 生成了 240 篇有关基因的文章,这些文章已经有非存根维基百科文章进行匹配比较。WikiCrow 文章平均为 1219.0 ± 275.0 个字(平均值 ± SD,N = 240),比相应的维基百科文章(889.6 ± 715.3 个字)长。平均文章生成时间为 491.5 ± 324.0 秒,平均每篇文章成本为 4.48 ± 1.02 美元(包括搜索和 LLM API 的费用)。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

同时,「引用但不受支持」评估类别包括不准确的陈述(例如真实幻觉或推理错误)和准确但引用不当的声明。

为了进一步调查维基百科和 WikiCrow 中的错误性质,研究者手动检查了所有报告的错误,并尝试将问题分类为以下几类:

推理问题,即书面信息自相矛盾、过度推断或不受任何引用支持; 归因问题,即信息可能得到另一个包含的来源支持,但该声明在本地没有包含正确的引用或来源太宽泛(例如数据库门户链接); 琐碎的声明,这些声明虽是真实的段落,但过于迂腐或没有必要。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

检测文献中的矛盾

由于 PaperQA2 可以比人类科学家探索吞吐量高得多的科学文献,因此研究者推测可以部署它来系统地、大规模地识别文献中矛盾和不一致的地方。矛盾检测是一个「一对多」问题,原则上涉及将一篇论文中的观点或声明与文献中所有其他观点或声明进行比较。在规模上,矛盾检测变成了「多对多」问题,对人类来说失去了可行性。

因此,研究者利用 PaperQA2 构建了一个名为 ContraCrow 的系统,可以自动检测文献中的矛盾(下图 A)。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

ContraCrow 首先使用一系列 LLM completion 调用从提供的论文中提取声明,然后将这些声明输入到 PaperQA2 中,并附带矛盾检测提示。该提示指示系统评估文献中是否存在与提供的声明相矛盾的内容,并提供答案和 11-point 李克特量表的选择。使用李克特量表可让系统在提供排名时给出更可靠、更易于解释的分数。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

接下来,研究者评估了 ContraCrow 检测 ContraDetect 中矛盾的能力。通过将李克特量表输出转换为整数,他们能够调整检测阈值并获得 AUC 为 0.842 的 ROC 曲线。将阈值设置为 8(矛盾),ContraCrow 实现了 73% 的准确率、88% 的精度和仅为 7% 的假阳性率(下图 C)。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

研究者将 ContraCrow 应用于从数据库中随机选择的 93 篇生物学相关论文,平均每篇论文识别出 35.16 ± 21.72(平均值 ± SD,N = 93)个声明。在对 93 篇论文分析出的 3180 个声明中,ContraCrow 认为 6.85% 与文献相矛盾,其中分别有 2.89%、3.77% 和 0.19% 的声明被打了 8 分、9 分和 10 分(下图 D)。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

此外,当将李克特量表阈值设定为 8,研究者发现平均每篇论文有 2.34 ± 1.99 个矛盾(平均值 ± SD)(下图 E)。

检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了

更多任务细节和测试结果请参阅原论文。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-13 14:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

清华电子院多措并举提升博士后科研创新水平
本文转自:滨城时报博士后获得中国博士后科学基金资助 其研究成果可助城市运行效率提高清华电子院多措并举提升博士后科研创新水平清华大学天津电子信息研究院记者从清华大学天津电子信息研究
2023-11-29 04:07:00
Claude团队喜提清华物理学霸姚顺宇!两个Yao Shunyu都投身大模型
...之后有2个动态的变化,一个是到加州伯克利做了几个月博士后,再之后就正式加入了Anthropic。 而在今年8月加入OpenAI的姚顺雨
2024-10-29 09:54:00
遥望科技省级博士后工作站正式落地 首位进站博士后李杨顺利开题
9月12日,遥望科技省级博士后工作站授牌仪式暨开题审核会在遥望科技总部大楼顺利举行。余杭区人力社保局党委委员、副局长沈芳明,余杭区人力社保局人才开发科主任张远进,浙江大学教授、浙
2025-09-15 10:46:00
...审委员会的严格评审,以及人力资源和社会保障部、全国博士后管理委员会的审核,智慧互通(AICT)成功获批设立博士后科研工作站,可以开展博士后招收培养工作。博士后科研工作站的设立
2024-05-27 10:47:00
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...所有检查并被纳入分析结果,大多数人类专家是博士生、博士后研究员或教职/学术人员。在BrainBench上,大型语言模型的性能表现都超过了人类专家
2024-12-09 09:50:00
科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊
...预测未知的事物。这立马引发科研圈的围观。多位教授和博士后博士后也表示,以后就可以让LLM帮忙判断更多研究的可行性了
2024-12-02 09:51:00
上海交大团队研发通用人工智能,解决传统蛋白质工程难题
...生物物理方面的机制研究。在美国橡树岭国家实验室完成博士后研究后,他来到上海交通大学,通过将实验和计算生物学方法进行结合的方式,继续对蛋白质的性能进行研究。“其实这些研究都属于
2024-05-07 09:24:00
泸州有对博士夫妇 带着老师们“卷”科研
...对中国的好奇,自己在博士毕业后申请了中国多所大学的博士后研究岗位,位于南京的东南大学伸出橄榄枝,开启了自己中国之旅的第一站。与丈夫库玛尔不同,2016年来到中国的夏玛,则更青
2023-11-28 04:05:00
从“农村娃”到“博士后” 校友深情告白母校
...来发表SCI、EI检索论文20篇,申请并授权发明专利5项。在博士后阶段,面对无线充电高性能、高安全性的迫切需求,他作为核心骨干投身国家重点研发计划子课题“基于碳化硅器件的电动
2025-05-22 17:57:00
更多关于科技的资讯:
山东移动聊城分公司:助力宾馆网络升级,打造数字化入住新体验
鲁网10月13日讯近日,山东移动聊城分公司顺利完成阳谷鼎盛商务宾馆47条企业宽带的全面部署与调试,通过“定制化组网+高效服务”模式
2025-10-13 22:04:00
引力一号遥二火箭问天,烟台联通圆满完成海上发射通信保障任务
10月11日10时19分,全球最大固体运载火箭“引力一号”(遥二)在山东海阳东方航天港附近海域点火升空,搭载三颗卫星顺利进入预定轨道
2025-10-13 22:49:00
邀用户亲测!双11买海尔空调,享政企双补贴
以往选购空调,用户大多只能在屏幕上对比参数,实际风感是否舒适、节能效果如何,往往要等到安装使用后才知晓。今年双11,海尔空调带来全新体验方式
2025-10-13 11:45:00
青春华章丨方寸之间,用“芯”绘就星图万里
华创微系列芯片产品化在即,保障天地“对话”,筑牢算力基石 方寸之间,用“芯”绘就星图万里□南京日报/紫金山新闻记者江芬芬编者按高质量发展是“十四五”乃至更长时期我国经济社会发展的主题
2025-10-13 08:05:00
宁企为能源发电站安装“智慧大脑”“一网统管”,巡检响应时间缩短一半,停机损失降低超30% □南京日报/紫金山新闻记者孙秉印通讯员麒轩“支路电流异常
2025-10-13 08:05:00
将税务服务从“送得对”到“传得开”、从“加急办”到“秒响应”、从“被动纠错”到“主动合规”……聚焦个体工商户办税缴费需求
2025-10-13 07:23:00
算力浪潮奔涌 夯实“数字底座”——河北以数字经济赋能高质量发展(一)在中国联通(怀来)大数据创新产业园的机房内,一排排机柜昼夜不息地嗡鸣
2025-10-13 08:00:00
双11重磅福利:88VIP点外卖5折,淘宝闪购1000万份免单等你抢!
淘宝闪购推出双11重磅福利:88VIP点外卖天天享五折,免单红包数量超1000万份!10月15日至11月14日,88VIP用户进入闪购频道
2025-10-12 05:27:00
这家宁企让足球邂逅时尚
本报记者 周京震 陆春花8月17日晚,“苏超”第9轮,南京迎战盐城。聚光灯下,南京队员战衣上那簇崭新的标识格外醒目——华瑞时尚
2025-10-12 05:27:00
这支“中国笔”,国内首款!
在常州经开区潞城街道江苏德尔福医疗器械有限公司的洁净工厂内工作人员正在忙碌地装配新型“电子笔”今年该企业三个型号的预充式电子笔式注射器获得国内首张医疗器械注册证标志着该类产品正式
2025-10-12 05:27:00
山东移动5G-A护航济南地铁4号线,打通地下通信“快车道”
近日,济南轨道交通4号线彭家庄站、程家庄站、唐冶站、唐冶南站(以上站名均为工程名)已完成移动5G-A通信覆盖,标志着这条串联城市东西的“黄金线路”在通信保障上迈出关键一步
2025-10-12 08:45:00
人保财险青岛分公司:科技赋能推动农险“双精准”再升级
齐鲁晚报·齐鲁壹点记者 尚青龙近日,青岛平度的肉牛也有了自己的“数字身份证”。人保财险青岛分公司借鉴内蒙古先进经验,引入内蒙古沃付国际物联网有限公司自主研发的人工智能畜牧业数字化管理平台
2025-10-12 11:53:00
一线保障人员“时刻在岗”,烟台联通守护高铁5G网络畅通运行
国庆中秋假期期间,面对持续攀升的客运高峰,烟台联通网络保障团队坚守岗位,全力投入高铁沿线5G网络实时保障工作,通过精细化运维与快速响应
2025-10-12 11:53:00
第十九届中国(临朐)家居门窗博览会12日开幕
齐鲁晚报·齐鲁壹点 王佳潼10月11日,第十九届中国(临朐)家居门窗博览会媒体见面会在临朐召开。记者在会上获悉,第十九届中国(临朐)家居门窗博览会定于2025年10月12日至15日在临朐国际会展中心举办
2025-10-12 11:55:00
济南热力以低空智巡护航聊热入济
近日,“聊热入济”长距离供热项目施工现场传来新进展——济南能源集团所属热力集团部署的无人机智慧巡检系统,正沿这条 “供热长龙” 精准巡航
2025-10-12 15:50:00