• 我的订阅
  • 科技

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成

类别:科技 发布时间:2024-08-08 09:39:00 来源:量子位

在长文本理解能力这块,竟然没有一个大模型及格!

北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成

该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。

结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。

比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。

而像开源模型表现就更不理想了…

ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。

目前该论文已被ACL 2024接收。

论文共同一作为通研院的李佳琪、王萌萌,通讯作者为通研院研究员郑子隆和北京大学人工智能研究院助理教授张牧涵。

LooGLE基准测试

LooGLE基准测试主要有这样几个特点:

首先,它包含包含近 800 个最新收集的超长文档。平均近2万字(是现有相似数据集长度的2倍),并从这些文档中重新生成了6千个不同领域和类别的任务/问题用于构建LooGLE。

目前目前没有既评估LLMs对长文本的处理和记忆,又评估其对文本长程依赖的建模和理解能力的数据集。

LooGLE的数据集由7个主要的任务类别组成,旨在评估LLMs理解短程和长程依赖内容的能力。

团队设计了5种类型的长期依赖任务,包括理解与推理、计算、时间线重新排序、多重信息检索和摘要。

通过人工标注精心生成了超过1100对高质量的长依赖问答对,以满足长依赖性要求。这些问答对经过了严格的交叉验证,从而得到了对大型语言模型(LLMs)长依赖能力的精确评估。

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成

LooGLE基准数据集仅包含2022年之后发布的文本,尽可能地避免了预训练阶段的数据泄露,考验大模型利用其上下文学习能力来完成任务,而不是依靠记忆事实和知识储备。

该基准的文本源自广泛认可的开源文档,包括了arxiv论文、维基百科文章以及电影和电视剧本,涉及学术、历史、体育、政治、艺术、赛事、娱乐等领域。

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成

长文理解中长程问答任务生成

在本研究中,团队组织了近百名标注者手工编制了约1100个真实的长依赖问答对,分为4类长依赖任务:多信息检索、时间重排序、计算、理解推理。

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成

多信息检索:与传统的短期检索任务显著不同,该任务下回答一个特定答案通常需要在整个文本中搜集多个线索或证据。任务要求从长文本中广泛分布的相关证据或线索中进行检索和提取,然后对这些证据进行汇总,才能得出最终答案。

计算:与前一个任务类似,首先需要从广泛的文本中进行多次信息检索提取相关数字,例如关于数量、频率、持续时间、特定年份等。要得出准确的答案,还需要对这些数字进行计算。这个过程既依赖于强大的长上下文信息提取能力,并且涉及一定程度的数学推理能力。

时间重排序:这个任务给大模型输入指令“请重新排列以下事件的时间轴”,以及一组按顺序排列的事件描述。任务目标是根据这些事件在长文本中出现的时间先后顺序将这些事件排列起来。成功完成这个任务需要对文档的主要故事情节进行抽取和理解,且要求模型具有时间意识。

理解推理:这个任务要求模型利用散落在长上下文中的证据,深入理解问题并推理出答案。最常见的问题模式涉及到因果关系、影响、贡献、态度以及与各种事件相关的基本属性。此外,当问题围绕着证据的重要程度、显著程度、最高或最关键方面时,则需要进行更广泛的比较和评估。此任务的答案通常在源文本中不明显。它们通常需要多步推理来模拟内在的联系和依赖关系,通过复杂的分析过程获取答案。

实验分析

为了提供更全面和通用的性能评估,LooGLE 使用基于语义相似性的度量、GPT4 作为判断的度量,以及人类评估作为度量。在LooGLE上对9种最先进的长文本LLMs进行评估(其中包括OpenAI和Anthropic的商用模型,以及几个主流开源基座模型微调得到的长文本模型,和带有外部记忆模块的检索增强模型),得出了以下关键发现:

商业模型显著优于开源模型; LLMs在短依赖任务(如短问答和填空任务)方面表现出色,但在更复杂的长依赖任务中均表现不佳 CoT(思维链)只在长上下文理解方面带来了微小的改进; 基于检索的技术在短问答方面表现出明显的优势,而通过优化的Transformer架构或位置编码来扩展上下文窗口长度的策略对长上下文理解的提升有限。

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成

△不同LLM在LooGLE上展现的长文本理解能力

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成

△不同模型在LooGLE短程问答上的性能

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成

△不同模型在LooGLE短程问答上的性能

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成

△不同上下文窗口对长程问答性能的影响

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成

△不同模型在4种不同类型长程问答上的性能

因此,LooGLE不仅提供了关于长上下文LLMs的系统和全面的评估方案,而且为未来开发增强型模型以实现“真正的长上下文理解”提供了启示。

论文地址:https://arxiv.org/abs/2311.04939数据地址:https://huggingface.co/datasets/bigainlco/LooGLE代码地址:https://github.com/bigai-nlco/LooGLE

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-08 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全模态对齐框架align-anything来啦:实现跨模态指令跟随
... 支持多种开、闭源对齐评估:支持了 30 多个多模态评测基准,包括如 MMBench、VideoMME 等多模态理解评测
2024-10-18 09:47:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...了新颖的视觉条件 3D 生成框架。 他们在单一和稀疏重建基准上进行的数值和视觉比较表明,See3D 在经济高效且可扩展的视频数据上经过训练后,实现了显著的零样本和开放世界生
2024-12-13 09:19:00
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...多种操作技能。在实验中,RoboMamba 在通用和机器人评估基准上展示了出色的推理能力,如图 2 所示。同时,我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力
2024-06-21 09:52:00
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳
2024-11-07 09:53:00
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...粒度标注系统 VERIFIED,并基于此系统构建新的细粒度 VCMR 基准数据集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG)
2024-10-29 09:55:00
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...nd v3(简称PGv3),将模型参数量扩展到240亿,在多个测试基准上达到了最先进的性能,更擅长图形设计。与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同
2024-10-08 09:48:00
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...AD 模型生成性能我们与多个点云重建或者基于点云生成的基准工作进行比较,评测结果展示出我们的方法在重建精度上表现出色。而在拓扑完整性的评估上,我们模型生成的 CAD 模型大多
2024-11-26 09:46:00
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到6
2024-09-26 13:38:00
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行
2024-09-18 13:31:00
更多关于科技的资讯:
职场福尔摩斯速成手册:5个细节看穿谁是“真领导”
茶水间摸鱼时偷听到两个实习生争论:“新来的总监开会总爱说‘我觉得’,一看就没领导力!”“你懂啥,人家之前带团队拿过行业大奖
2025-04-02 09:00:00
Mistral AI 米斯特拉尔 的AI+金融,打造全球最精准的智能投顾系统
AI在金融领域的应用正迎来革命性突破,而MistralAI米斯特拉尔站在这一浪潮的最前沿。公司最新推出的AI+金融解决方案
2025-04-02 09:16:00
嘉兴卓威科技:以创新智造赋能健康未来,远红外治疗仪获双证认证
近日,嘉兴卓威科技有限公司(以下简称“卓威科技”)自主研发的“接触式远红外治疗仪”正式通过浙江省药品监督管理局医疗注册证及生产许可证双认证
2025-04-02 09:16:00
在国家大力推进新型城镇化建设和建筑业转型升级的大背景下,建筑工程领域正迎来前所未有的发展机遇。随着城市基础设施建设的不断推进和建筑技术的日新月异
2025-04-02 09:16:00
爱凯奇品牌郑朝君匠心铸就中国轻工业新标杆‌
导语‌2025年3月,中国轻工业领域迎来高光时刻——爱凯奇品牌携其创始人郑朝君先生的创业故事与品牌理念,强势登陆央视综合频道(CCTV-1)爱凯奇央视广告播出ID号(2510595470050021)
2025-04-02 09:17:00
链动济宁①|以链式突围制胜,济宁工程机械千亿舰队加速驶向全球
齐鲁晚报·齐鲁壹点 孔茜中国工程机械行业春潮涌动。中国工程机械工业协会最新数据显示,2025年2月国内挖掘机销量达19270台
2025-04-02 09:25:00
本文转自:人民网-青海频道况玉人民网记者:南京智算中心在全国处于怎样的地位?青海移动算力分公司市场拓展部经理江恺瑞:南京智能计算中心是全国首批9家建设的国家新一代人工智能公共算力开放创新平台之一
2025-04-02 09:39:00
创想三维11周年店庆,3D打印机享国补+百亿补贴,惊喜上线
今年4月9日,创想三维即将迎来成立11周年的里程碑。作为全球消费级3D打印生态领创者,创想三维以先进技术与卓越品质,赢得全球500万创客用户青睐
2025-04-02 09:45:00
DeepSeek预测中大型企业招聘优先挑选AI招聘系统!
在数字化转型浪潮席卷全球的当下,人工智能(AI)正以前所未有的速度重塑企业运营的每一个环节。近日,知名行业研究机构DeepSeek发布《2024企业招聘技术趋势报告》
2025-04-02 09:45:00
2025中关村论坛年会:人工智能引领科技变革与产业升级
3月27日至31日,由科技部、国家发展改革委、国务院国资委、中国科学院、中国工程院、中国科协和北京市政府共同主办的2025中关村论坛年会在京举行
2025-04-02 09:45:00
中微公司等离子体刻蚀技术再获重大突破,引领行业迈向新高度
近日,中微半导体设备(上海)股份有限公司(股票代码:688012.SH,以下简称“中微公司”)传出振奋人心的消息。通过持续提升反应台之间气体控制精度
2025-04-02 09:51:00
蚂蚁消金被罚140万,合规警钟为谁而鸣?
文|罗曾日前,国家金融监督管理总局重庆监管局的一纸罚单,将重庆蚂蚁消费金融有限公司(下称“蚂蚁消金”)推至风口浪尖。这家成立不足四年的消费金融巨头
2025-04-02 09:52:00
首届中国手机摄影大展正式启动
本文转自:人民网首届中国手机摄影大展系列活动在四川省巴中市正式启动。作为首个国家级手机摄影品牌活动,本届手机摄影大展以“人人都是创作者”为主题
2025-04-02 10:11:00
数智赋能开启中小微商户运营新篇章
鲁网4月1日讯(记者 郑泽之 通讯员 张沙沙)在数字经济浪潮下,中小微商户的生存与发展正经历深刻变革。随着5G、云计算
2025-04-02 10:11:00
古贝春百年老窖金装酒荣膺2024年度“青酌奖”酒类新品
鲁网4月1日讯(记者 吴美琳)3月28日,在四川泸州举办的第二十二届中国国际酒业博览会上,中国酒业协会正式揭晓2024年度“青酌奖”酒类新品评选结果
2025-04-02 10:12:00