我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

检索总结能力超博士后，首个大模型科研智能体PaperQA2开源了

类别：科技发布时间：2024-09-13 13:33:00 来源：机器之心Pro

这是 AI 智能体在大部分科学研究中超越人类的第一个案例，或许会彻底改变人类与科学文献互动的方式。

最近一段时间，有关 AI 科学家的研究越来越多。大语言模型（LLM）有望帮助科学家检索、综合和总结文献，提升人们的工作效率，但在研究工作中使用仍然有很多限制。

对于科研来说，事实性至关重要，而大模型会产生幻觉，有时会自信地陈述没有任何现有来源或证据的信息。另外，科学需要极其注重细节，而大模型在面对具有挑战性的推理问题时可能会忽略或误用细节。

最后，目前科学文献的检索和推理基准尚不完善。AI 无法参考整篇文献，而是局限于摘要、在固定语料库上检索，或者只是直接提供相关论文。这些基准不适合作为实际科学研究任务的性能代理，更重要的是，它们通常缺乏与人类表现的直接比较。因此，语言模型和智能体是否适合用于科学研究仍不清楚。

近日，来自 FutureHouse、罗切斯特大学等机构的研究者们尝试构建一个更为强大的科研智能体，并对 AI 系统和人类在三个现实任务上的表现进行严格比较。这三个任务有关搜索整个文献以回答问题；生成一篇有引用的、维基百科风格的科学主题文章；从论文中提取所有主张，并检查它们与所有文献之间的矛盾。

这可能是第一个在多个现实文献搜索任务上评估单个 AI 系统的强大程序。利用新开发的评估方法，研究者探索了多种设计，最终形成了 PaperQA2 系统，它在检索和总结任务上的表现超过了博士生和博士后。

将 PaperQA2 应用于矛盾检测任务让我们能够大规模识别生物学论文中的矛盾。例如，ZNF804A rs1344706 等位基因对精神分裂症患者的大脑结构有积极影响的说法与后来发表的研究相矛盾，该研究发现 rs1344706 对大脑皮质厚度、表面积和皮质体积的影响会加剧患精神分裂症的风险。

论文地址：https://storage.googleapis.com/fh-public/paperqa/Language_Agents_Science.pdf GitHub 链接：https://github.com/Future-House/paper-qa

网友纷纷表示这项工作太棒了，并且是开源的。

回答科学问题

为了评估 AI 系统对科学文献的检索能力，研究者首先生成了 LitQA2，这是一组共 248 个多项选择题，其答案需要从科学文献中检索。LitQA2 问题的设计目的是让答案出现在论文正文中，但不出现在摘要中，理想的情况下，在所有科学文献中只出现一次。这些约束使我们能够通过将系统引用的来源 DOI 与问题创建者最初分配的 DOI 进行匹配来评估回答的准确性（下图 A）。

为了执行这些标准，研究者生成了大量关于最近论文中模糊的中间发现的问题，然后排除了任何现有 AI 系统或人类注释者可以使用替代来源进行回答的问题。它们都是由专家生成的。

在回答 LitQA2 问题时，模型可以通过选择「信息不足，无法回答此问题」来拒绝回答。与先前的研究和实际的科学问题类似，有些问题本来就是无法回答的。研究者评估了两个指标：精确度（即在提供答案时正确回答的问题的比例）和准确度（即所有问题中正确答案的比例）。此外还考虑了召回率，即系统将其答案归因于 LitQA2 中表示的正确源 DOI 的问题的总百分比。

在开发了 LitQA2 之后，研究者利用它来设计一个科学文献的 AI 系统。在 PaperQA 的启发下，PaperQA2 是一个 RAG 智能体，它将检索和响应生成视为一个多步骤智能体任务，而不是一个直接过程。PaperQA2 将 RAG 分解为工具，使其能够修改其搜索参数，并在生成最终答案之前生成和检查候选答案（下图 A）。

PaperQA2 可以访问「论文搜索」工具，其中智能体模型将用户请求转换为用于识别候选论文的关键字搜索。候选论文被解析为机器可读的文本，并分块以供智能体稍后使用。PaperQA2 使用最先进的文档解析算法（Grobid19），能可靠地解析论文中的章节、表格和引文。找到候选论文后，PaperQA2 可以使用「收集证据」工具，该工具首先使用 top-k 密集向量检索步骤对论文块进行排序，然后进行大模型重新排序和上下文摘要（RCS）步骤。

在回答 LitQA2 问题时，PaperQA2 平均每道题解析并使用 14.5 ± 0.6（平均值 ± SD，n = 3）篇论文。在 LitQA2 上运行 PaperQA2 可获得 85.2% ± 1.1%（平均值 ± SD，n = 3）的精确度和 66.0% ± 1.2%（平均值 ± SD，n = 3）的准确度。另外，系统在 21.9% ± 0.9%（平均值 ± SD，n = 3）的答案中选择报告「信息不足」（下图 B）。

研究者发现 PaperQA2 在 LitQA2 基准测试中的精确度和准确度均优于其他 RAG 系统。我们还可以发现，除 Elicit 外所有测试的 RAG 系统在精确度和准确度方面均优于非 RAG 前沿模型。

为了确保 PaperQA2 不会过拟合，从而无法在 LitQA2 上取得优异成绩，研究者在对 PaperQA2 进行大量工程改动后，生成了一组新的 101 个 LitQA2 问题。

PaperQA2 在原始 147 个问题上的准确率与后一组 101 个问题的准确率没有显著差异，这表明在第一阶段的优化已经很好地推广到了新的 LitQA2 问题（下表 2）。

PaperQA2 性能分析

研究者尝试改变 PaperQA2 的参数，以了解哪些参数决定其准确性（下图 C）。他们创建了一个非智能体版本，其中包含一个硬编码操作序列（论文搜索、收集证据，然后生成答案）。非智能体系统的准确率明显较低（t (3.7)= 3.41，p= 0.015），验证了使用智能体的选择。

研究者将性能差异归因于智能体更好的记忆能力，因为它可以在观察到找到的相关论文数量后返回并更改关键字搜索（论文搜索工具调用）。

结果显示，LitQA2 运行准确度最高时为每个问题进行了 1.26 ± 0.07（平均值 ± SD）次搜索，每个问题进行了 0.46 ± 0.02（平均值 ±SD）次引用遍历，这表明智能体有时会返回进行额外搜索或遍历引用图以收集更多论文。

为了改进相关块检索，研究者假设，找到的论文对于现有相关块的引用者或被引用者而言将是一种有效的分层索引形式。通过去除「引用遍历」工具验证了这一点，该工具显示准确率有所提高（t (2.55) = 2.14，p= 0.069），DOI 召回率显著提高（t (3) = 3.4，p = 0.022），并在 PaperQA2 流程的所有阶段都是如此。该工具的流程反映了科学家与文献互动的方式。

研究者曾假设解析质量会影响准确度，但 Grobid 解析和更大的块并没有显著提高 LitQA2 的精度、准确度或召回率（下图 6）。

总结科学主题

为了评估 PaperQA2 的摘要功能，研究者设计了一个名为 WikiCrow 的系统。该系统通过结合多个 PaperQA2 调用来生成有关人类蛋白质编码基因的维基百科风格文章，而这些调用涉及基因的结构、功能、相互作用和临床意义等主题。

研究者使用 WikiCrow 生成了 240 篇有关基因的文章，这些文章已经有非存根维基百科文章进行匹配比较。WikiCrow 文章平均为 1219.0 ± 275.0 个字（平均值 ± SD，N = 240），比相应的维基百科文章（889.6 ± 715.3 个字）长。平均文章生成时间为 491.5 ± 324.0 秒，平均每篇文章成本为 4.48 ± 1.02 美元（包括搜索和 LLM API 的费用）。

同时，「引用但不受支持」评估类别包括不准确的陈述（例如真实幻觉或推理错误）和准确但引用不当的声明。

为了进一步调查维基百科和 WikiCrow 中的错误性质，研究者手动检查了所有报告的错误，并尝试将问题分类为以下几类：

推理问题，即书面信息自相矛盾、过度推断或不受任何引用支持；归因问题，即信息可能得到另一个包含的来源支持，但该声明在本地没有包含正确的引用或来源太宽泛（例如数据库门户链接）；琐碎的声明，这些声明虽是真实的段落，但过于迂腐或没有必要。

检测文献中的矛盾

由于 PaperQA2 可以比人类科学家探索吞吐量高得多的科学文献，因此研究者推测可以部署它来系统地、大规模地识别文献中矛盾和不一致的地方。矛盾检测是一个「一对多」问题，原则上涉及将一篇论文中的观点或声明与文献中所有其他观点或声明进行比较。在规模上，矛盾检测变成了「多对多」问题，对人类来说失去了可行性。

因此，研究者利用 PaperQA2 构建了一个名为 ContraCrow 的系统，可以自动检测文献中的矛盾（下图 A）。

ContraCrow 首先使用一系列 LLM completion 调用从提供的论文中提取声明，然后将这些声明输入到 PaperQA2 中，并附带矛盾检测提示。该提示指示系统评估文献中是否存在与提供的声明相矛盾的内容，并提供答案和 11-point 李克特量表的选择。使用李克特量表可让系统在提供排名时给出更可靠、更易于解释的分数。

接下来，研究者评估了 ContraCrow 检测 ContraDetect 中矛盾的能力。通过将李克特量表输出转换为整数，他们能够调整检测阈值并获得 AUC 为 0.842 的 ROC 曲线。将阈值设置为 8（矛盾），ContraCrow 实现了 73% 的准确率、88% 的精度和仅为 7% 的假阳性率（下图 C）。

研究者将 ContraCrow 应用于从数据库中随机选择的 93 篇生物学相关论文，平均每篇论文识别出 35.16 ± 21.72（平均值 ± SD，N = 93）个声明。在对 93 篇论文分析出的 3180 个声明中，ContraCrow 认为 6.85% 与文献相矛盾，其中分别有 2.89%、3.77% 和 0.19% 的声明被打了 8 分、9 分和 10 分（下图 D）。

此外，当将李克特量表阈值设定为 8，研究者发现平均每篇论文有 2.34 ± 1.99 个矛盾（平均值 ± SD）（下图 E）。

更多任务细节和测试结果请参阅原论文。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-09-13 14:45:10

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于博士后,模型,科研,博士,检索,能力的资讯：

清华电子院多措并举提升博士后科研创新水平

本文转自：滨城时报博士后获得中国博士后科学基金资助其研究成果可助城市运行效率提高清华电子院多措并举提升博士后科研创新水平清华大学天津电子信息研究院记者从清华大学天津电子信息研究

2023-11-29 04:07:00

Claude团队喜提清华物理学霸姚顺宇！两个Yao Shun

...之后有2个动态的变化，一个是到加州伯克利做了几个月博士后，再之后就正式加入了Anthropic。而在今年8月加入OpenAI的姚顺雨

2024-10-29 09:54:00

遥望科技省级博士后工作站正式落地首位进站博士后李杨顺利开题

9月12日，遥望科技省级博士后工作站授牌仪式暨开题审核会在遥望科技总部大楼顺利举行。余杭区人力社保局党委委员、副局长沈芳明，余杭区人力社保局人才开发科主任张远进，浙江大学教授、浙

2025-09-15 10:46:00

智慧互通获批设立国家级博士后科研工作站大力推动产学研深度融合

...审委员会的严格评审，以及人力资源和社会保障部、全国博士后管理委员会的审核，智慧互通（AICT）成功获批设立博士后科研工作站，可以开展博士后招收培养工作。博士后科研工作站的设立

2024-05-27 10:47:00

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...所有检查并被纳入分析结果，大多数人类专家是博士生、博士后研究员或教职/学术人员。在BrainBench上，大型语言模型的性能表现都超过了人类专家

2024-12-09 09:50:00

科研党狂喜！AI预测神经学研究结论超人类专家水平 | Nat

...预测未知的事物。这立马引发科研圈的围观。多位教授和博士后博士后也表示，以后就可以让LLM帮忙判断更多研究的可行性了

2024-12-02 09:51:00

上海交大团队研发通用人工智能，解决传统蛋白质工程难题

...生物物理方面的机制研究。在美国橡树岭国家实验室完成博士后研究后，他来到上海交通大学，通过将实验和计算生物学方法进行结合的方式，继续对蛋白质的性能进行研究。“其实这些研究都属于

2024-05-07 09:24:00

泸州有对博士夫妇带着老师们“卷”科研

...对中国的好奇，自己在博士毕业后申请了中国多所大学的博士后研究岗位，位于南京的东南大学伸出橄榄枝，开启了自己中国之旅的第一站。与丈夫库玛尔不同，2016年来到中国的夏玛，则更青

2023-11-28 04:05:00

从“农村娃”到“博士后” 校友深情告白母校

...来发表SCI、EI检索论文20篇，申请并授权发明专利5项。在博士后阶段，面对无线充电高性能、高安全性的迫切需求，他作为核心骨干投身国家重点研发计划子课题“基于碳化硅器件的电动

2025-05-22 17:57:00

更多关于科技的资讯：

软件谷入选国家级名单，南京唯一

工信部公布产才融合应用场景19个典型案例软件谷入选国家级名单，南京唯一南报网讯（通讯员林园园记者于洁尘）10月28日

2025-11-03 07:37:00

超盒算NB在南京一天开4店

平价社区超市“跑马圈地”，半年连开20家超盒算NB在南京一天开4店南报网讯（记者张希）10月31日，盒马旗下硬折扣超市品牌超盒算NB在南京4店同开

2025-11-03 07:38:00

“新”潮涌动，积聚高质量发展新动能

今日关注数字21.9%关键词新动能前三季度，全市基础设施投资同比增长4.2%，其中本年新开工项目投资同比增长21.9%

2025-11-03 07:38:00

新闻纵深·解码钢铁大模型｜铁水智慧运输 “火眼金睛”定级

天柱钢铁进行全新智能改造升级铁水智慧运输 “火眼金睛”定级阅读提示铁水运输不再需要司机和道岔工，全程无人驾驶；废钢验质不再依赖人工爬车

2025-11-03 07:54:00

避坑指南与选型建议：基于1200+企业数据的国内靠谱GEO服

在生成式AI搜索浪潮席卷而来的2025年，选择一名合格的GEO服务商，已成为企业营销决策者的核心课题。然而，市场喧嚣背后

2025-11-02 17:33:00

王喜文：零首付租赁，机器人“普惠时代”来了

中新经纬11月1日电题：零首付租赁，机器人“普惠时代”来了作者王喜文北京华夏工联网智能技术研究院院长近期，智元机器人联合飞阔科技

2025-11-02 10:54:00

王忠民：GDP最大化不再是第一宏观经济指标

中新经纬11月1日电 (袁媛)近期，《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》(以下简称《建议》)发布

2025-11-02 10:58:00

鸿蒙电脑版微信强势升级：40+项功能释放办公社交新势能

作为超10亿人使用的国民级社交应用，微信深度适配鸿蒙电脑并不断进行版本更新。本次更新，鸿蒙电脑版微信一次性推出40+项实用功能

2025-11-02 14:26:00

正雅携手士卓曼，加速正雅技术在国际市场的拓展

正雅齿科与士卓曼集团宣布建立战略合作伙伴关系。此次合作将整合两家集团的核心优势，以更高的效率和速度推动全球口腔健康市场的增长

2025-11-02 14:26:00

京东服饰联合天纺标发布《新舒适内衣》团体标准共建行业品质新

10月31日，由京东服饰与天纺标检测认证股份有限公司联合主办的“中国内衣行业高品质供应链峰会暨京东服饰&天纺标联合发布会”在天津成功举办

2025-11-02 14:26:00

华为擎云 W515y登顶自主创新性能榜引领自主创新终端从可

在全球科技格局深刻演变、国际形势日趋复杂的背景下，自主创新产业正加速从可用向好用的真替真用阶段迈进。这不仅是技术发展的必然要求

2025-11-02 14:28:00

赛力斯2025前三季净利润超53亿元盈利能力持续增强

10月30日，赛力斯披露了2025年三季报，以亮眼的经营表现和持续攀升的交付数据，再次印证其在中国新能源豪华车市场的领跑地位

2025-11-02 14:29:00

雄安人工智能算力调度平台正式上线运行

中国雄安官网11月1日电近日，雄安人工智能算力调度平台在雄安城市计算中心正式部署完成并投入运行，标志着雄安新区在构建集约高效

2025-11-02 18:03:00

中国轻奢美护品牌黎科世亮相巴黎设计周，以生物科技融合感官美学

近日，中国轻奢美护品牌SENSLUX（黎科世）凭借其融合生物科技与感官美学的独特理念，在2025年9月举办的巴黎设计周中国创新馆中精彩亮相

2025-11-02 21:50:00

AI盛宴启幕！“科大讯飞1024科博展”燃动合肥

大皖新闻讯 11月2日，第八届世界声博会暨2025科大讯飞1024全球开发者节科博展在合肥体育中心盛大启幕。从萌趣幼教机器人到智能健康助手

2025-11-02 22:42:00

头条订阅服务

检索总结能力超博士后，首个大模型科研智能体PaperQA2开源了