• 我的订阅
  • 科技

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

类别:科技 发布时间:2024-11-27 13:33:00 来源:新智元

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

【新智元导读】Ai2和华盛顿大学联合Meta、CMU、斯坦福等机构发布了最新的OpenScholar系统,使用检索增强的方法帮助科学家进行文献搜索和文献综述工作,而且做到了数据、代码、模型权重的全方位开源。

LLM集成到搜索引擎中,可以说是当下AI产品的一个热门落地方向。

前有Perplexity横空出世,后有谷歌Gemini和OpenAI的SearchGPT纷纷加入。

就在11月23日,有人发现搜索引擎大佬Darin Fisher正式加入OpenAI,这让人更加确信:SearchGPT只是一个开始,OpenAI也许会正式打造以LLM为基础的搜索引擎和浏览器,和谷歌展开一场正面battle。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

虽然当下的LLM可以应付大多数场景下的常识问答,但在学术打工人眼中,用AI进行文献搜索依旧缺陷重重,还是传统的谷歌搜索和谷歌学术更好用。

为了填补这方面的空白,华盛顿大学NLP实验室和Ai2、Meta等机构合作,开发了专门服务科研人的学术搜索工具OpenScholar。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

本质上,OpenScholar是一个进行过检索增强的语言模型,外接一个包含4500万篇论文的数据库,性能可以优于专有系统,甚至媲美人类专家。

为了方便自动化评估,团队还一道推出了全新的大规模基准ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。

由UWNLP和Ai2两大顶流机构联手,OpenScholar在开源方面几乎做到了无懈可击。不仅放出了训练数据、代码和模型检查点,还有ScholarQABench的全部数据,以及用于专家评估的自动化脚本。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

仓库地址:https://huggingface.co/collections/OpenScholar/openscholar-v1-67376a89f6a80f448da411a6

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

仓库地址:https://github.com/AkariAsai/OpenScholar

论文开头就给出了全部网址,此外团队还构建了一个公开可用的搜索demo,基于一个参数量为8B的语言模型,综合了超过100万篇CS领域的专业文献。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

demo传送门:https://openscholar.allen.ai/

OpenScholar介绍

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

论文地址:https://arxiv.org/abs/2411.14199

阅读文献是科研工作的重要部分,不仅能知道同行们的最前沿进展,也是构建自己创新idea的重要来源。科学的进步,依赖于研究者们综合不断增长的文献的能力。

然而,随着发表的文献数量越来越多,全部通读已经是不可能完成的任务,因此就需要依赖实时更新的搜索工具,并能给出信息的准确来源。

虽然LLM在成为科研助手方面非常有前景,但也面临着重大挑战,包括幻觉、过于依赖过时的预训练数据,并且缺乏透明的信息出处,条条对科研领域都是重大弊病。

就拿幻觉来说,实验中让GPT-4引用最新文献时,它在CS、生物医学等领域伪造引用的情况达到了78%~90%。

检索增强(retrieval-augmented)的语言模型可以在推理时检索并集成外部知识源,从而缓解上述问题。然而,许多此类系统依赖于黑盒API或通用的LLM ,既没有针对文献综合的任务进行优化,也没有搭配适合科研的开放式、领域特定的检索数据库。

此外,LLM在科研文献综合任务上的评估也存在限制,现有的基准大多规模较小或只针对单个学科,或者使用了过于简化的任务(如选择题问答)。

OpenScholar的提出就是旨在解决上述问题。模型在推理时会检索相关段落,并使用迭代式自反馈的生成方法来优化输出;搭配的专门基准ScholarQABench旨在对开放式科学问答进行现实且可重复的评估。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

OpenScholar概述、ScholarQABench概述和自动化&人类专家评估结果

模型概述

对于OpenScholar而言,问题定义如下:

给出一个科学查询x ,任务是识别相关论文,综合他们的发现,并生成响应y,其中应附有一组引文, =c1, c2 ,…, cK。

为了遵循科学写作的标准实践 ,每个引用ci对应于现有科学文献中的特定段落,并应作为内嵌引用提供,链接到相关文本范围y。这些引文使研究人员能够将输出追溯到原始文献,确保透明度和可验证性。

为了确保能检索到相关论文并生成高质量的输出,OpenScholar由三个关键组件组成:数据库 、检索器ℛ ,和负责生成的语言模型 。

推理过程从检索器ℛ开始 ,它从包含大量已发表文献的数据库中,根据与输入查询的语意相关性 x检索到一组段落 ={p1,p2,…,pN},作为下一步的上下文。

然后,负责生成的语言模型根据段落和输入查询x产生输出y以及相应的引文, 这个过程可以形式化表示为:

其中,中但每个ci对应检索到的特定段落 ,负责生成的LM可以被灵活替换为各种县城的模型,比如GPT-4o。

看起来,OpenScholar的检索和推理流程基本复刻了经典RAG的流水线,但团队做出了以下两方面的贡献:

- 新训练出了小而高效的生成模型OpenScholar-LM

- 开发了自反馈检索增强推理(elf-feedback retrieval-augmented inference),以提高可靠性和引用准确性

检索与推理

检索流程如下图左半部分所示,由数据存储、bi-encoder检索器θb_i,以及cross-encoder重排序器 θcross组成。最终,从数据库的4500万篇论文中筛选出N个最相关的段落。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

在标准的检索增强生成(RAG)中,生成器LM接收原始输入x和检索到的N个最相关段落并生成输出 y0 。虽然对于问答等任务有效,但这种「一步登天」的生成方式可能会产生不符合要求的答案,或由于信息缺失而导致输出不完整 。

为了应对这些挑战,OpenScholar引入了一种带有自我反馈的迭代生成方法,包括三个步骤:(1)初始响应和反馈生成以输出初始草稿y0以及一组反馈;(2)使用额外的搜索,根据上一步的反馈迭代改进y0,以及(3)引文验证。

模型训练

由于缺乏针对该问题的训练数据,构建能够有效综合科学文献的强大LM非常具有挑战性,之前的大多数工作并没有设置开放式检索,而且是单论文任务,而且依赖于没有开源的专有模型,这对复现性和推理成本提出了挑战。

研究团队想到了采用上述的推理pipeline,通过自反馈合成高质量的训练数据,训练出「小而美」的OpenScholar LM模型,具体训练流程如下图所示。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

训练数据的生成主要包括三个步骤:

- 从数据库中筛选出最高引用量的论文

- 根据文章摘要生成一些有信息检索目的的查询

- 使用OpenScholar推理pipeline生成高质量响应

尽管合成数据是有效且可扩展的,但也可能包含幻觉、语句重复、指令遵循有限等问题,因此在上述步骤之后,团队还引入数据过滤步骤,包括「成对过滤」(pairwise-filtering)和标题过滤。判断并筛选出较高质量的输出。

从上述的合成管道中,可以得到三种类型的训练数据:答案生成(x→y),反馈生成(y0→),以及反馈合并 (yt−1,ft→yt) 。论文指出,在训练期间结合中间结果和最终输出有助于较小的语言模型学习生成更有效的反馈。

最后,研究人员将上述的合成数据与现有的通用领域+科学领域的指令调优数据混合,并确保50%的训练数据来自科学领域。在这些数据上,团队将Llama 3.1 8B Instruct训练成了OpenScholar LM。

全新基准ScholarQABench

ScholarQABench基准旨在评估模型理解和综合现有研究的能力。之前的基准一般会预先划定范围,假设可以在某一篇论文中找到答案,但许多现实场景都需要识别多篇相关论文,并生成带有准确引用的长文本输出。

为了应对这些挑战,研究人员整理了一个包含2967个文献综合问题的数据集,以及由专家撰写的208个长篇回答,涵盖计算机科学、物理、生物医学和神经科学等4个学科。

此外,基准中引入了多方面的评估方案,结合了自动指标和人工评估,以衡量引文准确性、事实正确性、内容覆盖率、连贯性和整体质量,确保评估的稳健和可重复性。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

SchlarQA-CS的数据样例和评估概述

评估结果

评估中使用了开放权重模型Llama 3.1(8B、70B)以及专有模型GPT-4o(gpt-4o-2024-05-13)。

首先,在单论文任务中,每个LM在不连接外部检索的情况下独立生成答案,并提供所有参考论文的标题。如果参考论文确实存在,则检索相应摘要以用作引文。

对于多论文任务,团队还进一步评估其他专有系统,包括Perplexity Pro和PaperQA2,后者是一个并发文献综述智能体系统,使用 GPT-4o进行重排、总结和答案生成。

具体的评估结果如下表所示,其中+OSDS表示外接了数据库OpenScholar-DataStore并检索到top N段落拼接到原始输入中;OS-8B模型经过重新训练,OS-70B和OS-GPT-4o仅仅使用了团队自定义的推理pipeline。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

总体而言, OpenScholar实现了SOTA性能,大大优于GPT-4o和相应的标准RAG版本,以及PaperQA2等专用的文献综述系统。

在单篇论文任务中, OpenScholar始终优于其他模型。无论是否有检索增强,OS-8B和OS-70B均优于原来的Llama 3.1模型,OS-70B在PubMedQA和QASA上甚至可以对打GPT-4o。

此外,OS-8B、OS-70B和OS-GPT4o在多论文任务中也表现出强大的性能,OS-GPT4o在Scholar-CS中比单独的GPT-4o提高12.7%,比标准RAG版本提高了5.3 %。结合了重新训练过的OS-8B, OpenScholar 的性能显著优于使用现成的Llama 3.1 8B,说明了特定领域训练的优势。

甚至,在多论文任务的很多指标上,OpenScholar-8B的性能远远优于GPT-4o、Perplexity Pro和PaperQA2。值得注意的是,通过利用轻量的bi-encodeer、cross-encoder构建高效的检索pipeline, OpenScholar-8B 和OpenScholar-GPT4o显著降低了成本,在保持高性能的同时比PaperQA2便宜了几个数量级。

无论是单论文还是多论文任务,没有检索增强的模型几乎都表现的相当糟糕,难以生成正确的引用,甚至会产生严重的幻觉,而增加了检索之后都能大幅提升性能。

如表3所示,在没有检索增强的情况下,虽然GPT-4o和Llama等模型可以生成看起来靠谱的参考文献列表,但其中78-98%的引文都是捏造的,而且这个问题在生物医学领域更加严重。即使指向了真实论文,大多也没有相应摘要的证实,导致引文准确性接近于零。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

除了在ScholarQABench上进行自动评估外,团队还与来自计算机科学、物理学和生物医学等领域的16名科学家合作,进行了详细的专家评估。

他们根据ScholarQABench中专家编写108个对文献综述问题的答案,对OpenScholar的输出进行了成对和细粒度的评估。结果发现,无论是使用GPT-4o还是经过训练的8B模型,OpenScholar的表现始终优于专家编写的答案,胜率分别为70%和51%。

相比之下,没有检索的单独GPT-4o模型被认为不如人类专家有帮助,胜率仅为 31%。这表明OpenScholar生成的输出更加全面、有条理,并且对于文献综述非常有用,不仅可以与专家撰写的答案相媲美,而且在某些情况下甚至超过了专家。

消融实验

为了研究OpenScholar各个组件的有效性,作者进行了详细的消融实验,涉及推理期的重排、反馈、查找文献出处等步骤,并尝试不进行任何训练,直接使用原始的Llama3-8B模型。

如下图所示,删除这些组件会显著影响模型输出的整体正确性和引用准确性。值得注意的是,删除重排会导致模型性能大幅下降;相比8B模型,GPT-4o对删除反馈循环更加敏感,这表明更强大的模型可以从自反馈循环中受益更多。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

此外,取消论文出处的查找(attribution)会对引文准确性和最终输出正确性产生负面影响;经过训练的OS-8B 与原始模型之间也存在显著性能差距,这表明,对高质量、特定领域数据的进一步训练是构建高效的、针对专门任务的语言模型的关键。

结论与局限性

尽管OpenScholar在ScholarQABench在评估中表现出了强大的性能,能够成为支持科研人的效率工具,但负责标注和评估的专家依旧发现了一些局限性。

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

首先,OpenScholar不能始终如一地检索到最具代表性或相关性的论文,而且输出总可能包含不准确的事实信息,特别是在基于8B模型的版本中,科学知识和指令遵循能力有限。

未来的工作可以进一步探索如何改进OpenScholar-8B的训练。尽管OpenScholar-GPT4o具有竞争力,但依赖于OpenAI的专有黑盒API,无法保证之后仍能精确复现当下的结果。

此外,数据方面也存在诸多繁琐且棘手的问题。

第一,ScholarQABench聘请了领域专家进行数据标注,他们都获得了博士学位或正在从事相关研究。这种人工撰写答案的方式成本很高,因此评估数据集相对较小,比如,CS-LFQA包括110条数据,专家编写的答案有108个。

这种数据集由于规模较小,更容易被注释者的专业知识所影响,从而引入统计方差和潜在偏差。未来的研究需要探索,如何扩大ScholarQABench的规模和范围,实现更加自动化的数据收集和标注pipeline。

第二,最后, ScholarQABench主要关注计算机科学、生物医学和物理学等领域,没有社会科学和其他STEM学科的实例数据。因此,目前的研究结果可能无法完全推广到其他领域,特别是在一些领域中,对论文数据的访问会受到更多限制。

最后,虽然OpenScholar在推理期没有使用版权保护的论文,但如何确保检索增强型的语言模型在训练和推理时做到对版权数据的公平使用,这方面的讨论仍在进行,也只能留待学界和业界在之后的工作中解决。

参考资料:

https://allenai.org/blog/openscholar

https://x.com/AkariAsai/status/1858875730068738051

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-27 14:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

超越GPT-4o!开源科研神器登场,4500万论文检索增强生成靠谱回答
...后表示:做复杂课题也能快速搜集有用的资料,真是科研神器!仅调用8B模型 一句话总结:它存储了4500万篇论文的大规模数据,并使用自定义训练的检索器、重排器和8B参数语言模型
2024-11-27 09:58:00
【2025数博会】无相智研科研大模型AI平台:以数据要素重塑科研基础设施
...”,旨在解决科研领域的关键痛点:资源获取难(如海量文献检索效率低下)、信息整合效率低(跨学科知识融合失败率高)、研究进程慢(实验设计到成果转化周期长)以及数据孤岛问题(尤其在
2025-08-30 04:58:00
论文写作不再难!免费一键生成+选题定稿全攻略
...任务书、开题报告、调查问卷及图表等,真的逢人就推的神器了!还没有写的赶紧试试~~效率神器! 2、云笔AI云笔AI生成的论文不仅逻辑清晰、结构严谨,还兼具专业性与可读性。随着
2025-03-31 21:09:00
...语言模型“书生·浦语”2.0基础上,科研团队输入了科技文献、产业实践报告等海量专业数据,训练出具有强大理解和分析能力的种业大模型。它能降低育种领域的学习门槛,提升从业人员的研
2024-04-29 05:58:00
...认为存在一定局限性,但研究的相关分析结果仍然引起了文献专家的关注与讨论。如今,学术论文的产出数量大、速度快。上述研究指出,在线保存论文的系统已经无法满足研究产出的增长速度。是
2024-04-30 04:19:00
【2025数博会】无相智研科研大模型AI平台助力科研范式变革
...识图谱和AI智能体,跨学科领域提供高效解决方案。首创文献矩阵提取和多文献对话解析,生成动态知识图谱,揭示研究空白与趋势预测。在实验写作场景中,平台支持实验设计、代码生成及图片
2025-09-01 02:46:00
讯飞星火V3.0发布,打造每个人的AI助手
...的风格进行对话。二、升级编程助手iFlyCode2.0,推出科技文献大模型“大模型首先要能够在工业和科研领域造福人类,这才是我们真正解决社会刚需的地方。”刘庆峰称。在工业领域
2023-10-24 15:02:00
AI用于写毕业论文,边界在哪儿?多所高校发文规范
从泡图书馆,翻阅厚重的目录索引寻找文献,到互联网兴起后,利用在线数据库与搜索引擎查找资料,再到如今人工智能和机器学习的应用,技术发展正在一步步改变论文写作的方式。近期,各高校陆续
2024-05-16 14:36:00
...果的发表。为解决上述问题,Curie应运而生。它基于学术文献进行了专门训练,并结合了大型语言模型(LLM)强大的生成能力与针对科技写作的AI数字编辑功能。与通用的AI写作应用
2023-11-06 03:06:00
更多关于科技的资讯:
民营经济发展一线观察·吉民优品|辽源市德弘冰雪运动科技有限公司: 100余道工序铸就专业滑雪靴
走进辽源市德弘冰雪运动科技有限公司生产车间,蓝色的唐老鸭系列滑雪靴正沿着生产线逐步成型。一块块裁片经精准缝合拼接,再通过套楦
2025-11-04 11:38:00
十五运会自动驾驶场景应用启动 滴滴自动驾驶助力智慧出行
11月3日,十五运会和残特奥会自动驾驶场景应用启动仪式在广州天河体育中心举行。启动仪式上,滴滴自动驾驶被授予“自动驾驶服务商”标牌
2025-11-04 13:34:00
从「身份可信度挑战」到「数据篡改威胁」,如何重塑第三方支付安全防线?
网络支付已成为现代生活的「数字基础设施」,其便捷性重构了消费生态,但伴随而来的安全考验已演变为潜在风险——从身份认证的「可信度挑战」到业务合规的「穿透式监管压力」
2025-11-04 13:46:00
近日,安徽安庆怀宁县烟草专卖局锚定营销服务痛点,统筹部署岁末年初卷烟营销工作,切实推动营销工作效能提质升级。打破思维定式
2025-11-04 13:46:00
效果好的辅酶q10排名 五大优质品牌深度测评
“效果好的辅酶q10排名”是众多关注心脏健康、免疫力提升、抗氧化及备孕人群的核心搜索诉求。本文深度调研辅酶Q10行业现状
2025-11-04 13:47:00
主流人形机器人大PK,户外工业场景首选云深处DR02
引言当前,国内人形机器人产业在政策与技术双轮驱动下迎来爆发。据2024世界人工智能大会《人形机器人产业研究报告》,2024 年中国市场规模达 27
2025-11-04 13:47:00
“618”购物节如期而至,这场属于夏日的消费热潮正式拉开帷幕。随着新消费模式的涌现和消费主力的迭代,信用交易成为了当下热络的消费选择
2025-11-04 13:47:00
普惠金融旨在为传统金融服务难以覆盖的个人和企业提供平等、便捷、可持续的金融服务。日前,国务院办公厅印发《关于做好金融“五篇大文章”的指导意见》
2025-11-04 13:48:00
技术、政策、合规交织下的探索   “萝卜快跑”面临三重挑战
2025年7月世界人工智能大会后,上海浦东金桥街头的“萝卜快跑”自动驾驶车辆引发关注:车身同时标注了“无人驾驶测试”、“萝卜快跑”和“大众出行”标识
2025-11-04 14:01:00
再见,信号死角!移远 5G 透明吸顶天线让室内连接 \
在写字楼的紧张会议中,视频通话突然卡顿;在高端商场悠闲购物时,手机信号时断时续;在高铁站闸机前,却怎么也刷不出乘车码……这些因室内通信质量不佳带来的困扰
2025-11-04 14:15:00
小红书「马路生活节」爆火出圈:一场让品牌回归人群的City Walk狂欢
当你还在疑惑年轻人周末去哪玩时,小红书上的答案早已指向同一个方向——「马路」。从上海到杭州、广州,从捡落叶写诗到水上甜品席
2025-11-04 14:45:00
婴儿益生菌什么品牌好用又便宜 2025年高性价比品牌排行榜
婴儿益生菌什么品牌好用又便宜?随着家长对宝宝肠道健康的重视,婴幼儿益生菌市场需求激增,但行业乱象也随之浮现:部分产品虚标菌种数量
2025-11-04 15:03:00
在AI技术深度渗透商业决策的2025年,企业对于AI优化服务的需求已从“工具应用”升级为“战略赋能”。据中国信通院最新报告
2025-11-04 15:05:00
植物蛋白粉测评与推荐 植物蛋白粉品牌排名榜单揭晓
在健康消费持续升级的当下,植物蛋白粉作为日常营养补充的重要载体,正从“健身专属”走向“全民刚需”。然而,面对市场上琳琅满目的产品
2025-11-04 15:11:00
知名潮牌将关闭中国门店 合肥门店:也有消息,时间不确定
大皖新闻讯 盛开的小雏菊和腊肠犬,是韩国潮流服饰品牌Mardi Mercredi最具辨识度的设计符号,也曾成为时尚的标配
2025-11-04 15:17:00