我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生成

类别：科技发布时间：2024-08-08 09:39:00 来源：量子位

在长文本理解能力这块，竟然没有一个大模型及格！

北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。

该数据集既能够评估LLMs对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。

结果不评不知道，一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。

比如像Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。

而像开源模型表现就更不理想了…

ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。

目前该论文已被ACL 2024接收。

论文共同一作为通研院的李佳琪、王萌萌，通讯作者为通研院研究员郑子隆和北京大学人工智能研究院助理教授张牧涵。

LooGLE基准测试

LooGLE基准测试主要有这样几个特点：

首先，它包含包含近 800 个最新收集的超长文档。平均近2万字（是现有相似数据集长度的2倍），并从这些文档中重新生成了6千个不同领域和类别的任务/问题用于构建LooGLE。

目前目前没有既评估LLMs对长文本的处理和记忆，又评估其对文本长程依赖的建模和理解能力的数据集。

LooGLE的数据集由7个主要的任务类别组成，旨在评估LLMs理解短程和长程依赖内容的能力。

团队设计了5种类型的长期依赖任务，包括理解与推理、计算、时间线重新排序、多重信息检索和摘要。

通过人工标注精心生成了超过1100对高质量的长依赖问答对，以满足长依赖性要求。这些问答对经过了严格的交叉验证，从而得到了对大型语言模型（LLMs）长依赖能力的精确评估。

LooGLE基准数据集仅包含2022年之后发布的文本，尽可能地避免了预训练阶段的数据泄露，考验大模型利用其上下文学习能力来完成任务，而不是依靠记忆事实和知识储备。

该基准的文本源自广泛认可的开源文档，包括了arxiv论文、维基百科文章以及电影和电视剧本，涉及学术、历史、体育、政治、艺术、赛事、娱乐等领域。

长文理解中长程问答任务生成

在本研究中，团队组织了近百名标注者手工编制了约1100个真实的长依赖问答对，分为4类长依赖任务：多信息检索、时间重排序、计算、理解推理。

多信息检索：与传统的短期检索任务显著不同，该任务下回答一个特定答案通常需要在整个文本中搜集多个线索或证据。任务要求从长文本中广泛分布的相关证据或线索中进行检索和提取，然后对这些证据进行汇总，才能得出最终答案。

计算：与前一个任务类似，首先需要从广泛的文本中进行多次信息检索提取相关数字，例如关于数量、频率、持续时间、特定年份等。要得出准确的答案，还需要对这些数字进行计算。这个过程既依赖于强大的长上下文信息提取能力，并且涉及一定程度的数学推理能力。

时间重排序：这个任务给大模型输入指令“请重新排列以下事件的时间轴”，以及一组按顺序排列的事件描述。任务目标是根据这些事件在长文本中出现的时间先后顺序将这些事件排列起来。成功完成这个任务需要对文档的主要故事情节进行抽取和理解，且要求模型具有时间意识。

理解推理：这个任务要求模型利用散落在长上下文中的证据，深入理解问题并推理出答案。最常见的问题模式涉及到因果关系、影响、贡献、态度以及与各种事件相关的基本属性。此外，当问题围绕着证据的重要程度、显著程度、最高或最关键方面时，则需要进行更广泛的比较和评估。此任务的答案通常在源文本中不明显。它们通常需要多步推理来模拟内在的联系和依赖关系，通过复杂的分析过程获取答案。

实验分析

为了提供更全面和通用的性能评估，LooGLE 使用基于语义相似性的度量、GPT4 作为判断的度量，以及人类评估作为度量。在LooGLE上对9种最先进的长文本LLMs进行评估(其中包括OpenAI和Anthropic的商用模型，以及几个主流开源基座模型微调得到的长文本模型，和带有外部记忆模块的检索增强模型），得出了以下关键发现：

商业模型显著优于开源模型； LLMs在短依赖任务（如短问答和填空任务）方面表现出色，但在更复杂的长依赖任务中均表现不佳 CoT（思维链）只在长上下文理解方面带来了微小的改进；基于检索的技术在短问答方面表现出明显的优势，而通过优化的Transformer架构或位置编码来扩展上下文窗口长度的策略对长上下文理解的提升有限。

△不同LLM在LooGLE上展现的长文本理解能力

△不同模型在LooGLE短程问答上的性能

△不同上下文窗口对长程问答性能的影响

△不同模型在4种不同类型长程问答上的性能

因此，LooGLE不仅提供了关于长上下文LLMs的系统和全面的评估方案，而且为未来开发增强型模型以实现“真正的长上下文理解”提供了启示。

论文地址：https://arxiv.org/abs/2311.04939数据地址：https://huggingface.co/datasets/bigainlco/LooGLE代码地址：https://github.com/bigai-nlco/LooGLE

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-08 12:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于基准,北大,生成,模型,文本,评估的资讯：

全模态对齐框架align-anything来啦：实现跨模态指

... 支持多种开、闭源对齐评估：支持了 30 多个多模态评测基准，包括如 MMBench、VideoMME 等多模态理解评测

2024-10-18 09:47:00

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...了新颖的视觉条件 3D 生成框架。他们在单一和稀疏重建基准上进行的数值和视觉比较表明，See3D 在经济高效且可扩展的视频数据上经过训练后，实现了显著的零样本和开放世界生

2024-12-13 09:19:00

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...多种操作技能。在实验中，RoboMamba 在通用和机器人评估基准上展示了出色的推理能力，如图 2 所示。同时，我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力

2024-06-21 09:52:00

下载次数破39万！CMU、Meta联合发布VQAScore文

...图像质量的新方法；GenAI-Bench是一个包含复杂文本提示的基准测试集，用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能，还能通过选择最佳

2024-11-07 09:53:00

NeurIPS | 消除多对多问题，清华大规模细粒度视频片段

...粒度标注系统 VERIFIED，并基于此系统构建新的细粒度 VCMR 基准数据集（Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG）

2024-10-29 09:55:00

文生图参数量升至240亿！Playground v3发布：深

...nd v3（简称PGv3），将模型参数量扩展到240亿，在多个测试基准上达到了最先进的性能，更擅长图形设计。与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同

2024-10-08 09:48:00

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...AD 模型生成性能我们与多个点云重建或者基于点云生成的基准工作进行比较，评测结果展示出我们的方法在重建精度上表现出色。而在拓扑完整性的评估上，我们模型生成的 CAD 模型大多

2024-11-26 09:46:00

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到6

2024-09-26 13:38:00

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行

2024-09-18 13:31:00

更多关于科技的资讯：

记者走基层｜巧搭“数字积木” 智绘梦想花园

10月29日，承德图布斯科技集团有限公司技术人员正在调试设计图。河北日报记者陈宝云摄10月29日，在承德图布斯科技集团有限公司（以下简称“图布斯公司”）的研发中心

2025-11-05 08:12:00

大数据赋能思政课精准教学

□曹清华党的二十届四中全会提出，实施新时代立德树人工程，促进思政课堂和社会课堂有效融合，加强体育、美育、劳动教育，完善教育评价体系

2025-11-05 08:16:00

2025年沪江网校课程质量高于预期：退费无忧+承诺与践行一致

一、沪江网校简介为沪江教育旗下品牌，沪江网校自 2009 年成立以来，始终聚焦外语学习者需求，提供网校一对一，凭借专业教学服务与多元课程体系

2025-11-05 14:45:00

2025年10月GEO推荐：用户口碑与效果评测榜单出炉

（一）开篇引言行业背景与痛点：中国信息通信研究院《2025年数字营销发展趋势报告》显示，2024年我国生成式引擎优化（GEO）市场规模已达47亿元

2025-11-05 14:47:00

“南京造”智能体加速走向产业一线

在智能体产业快步迈入规模化的当下，南京正以软件产业的深厚积淀、政策生态的精准培育、应用场景的丰富储备，抢占AI科技革命新高点前几天

2025-11-05 15:06:00

Openloong开源社区亮相ROSCon China 20

10月31日至11月1日，ROSCon China 2025在上海虹桥新华联索菲特大酒店成功举办。这一汇聚了全球ROS领域顶尖专家与开发者的年度盛会

2025-11-05 15:29:00

职场“反内卷”调研报告干货多多

近日，智联招聘《职场“反内卷”调研报告》，探究职场人对于“反内卷”的真实态度与选择，了解企业的相应举措。今年“多家知名企业实施强制下班”的新闻冲上热搜

2025-11-05 15:32:00

东平农商银行：“同心乐商贷”50万活水浇灌刘先生甜蜜创业梦

鲁网11月5日讯“真没想到，资金难题这么快就解决了！东平农商银行的‘同心乐商贷’真是及时雨，我的蛋糕房终于要开起来了。”近日

2025-11-05 15:55:00

中国联通（青岛）智算中心DC1获评“2025年度国家绿色数据

鲁网11月5日讯10月27日，工业和信息化部节能与综合利用司发布《2025年度国家绿色数据中心名单公示》，中国联通（青岛）智算中心DC1荣获“2025年度国家绿色数据中心”称号

2025-11-05 15:57:00

以创新实力擘画虚实融合新图景江西移动全力推进VR产业发展

10月19日至20日，2025世界VR产业大会在南昌举行，来自全球VR领域的专家学者、领军企业和业界精英齐聚南昌，共同探讨VR与AI融合发展的新趋势

2025-11-05 17:44:00

语言、技能与数字化：培生亮相CACIE 2025，共筑未来教

2025年10月29日至11月1日，第26届中国国际教育年会（CACIE）在北京国家会议中心举行。全球终身学习公司培生（FTS: PSON

2025-11-05 18:00:00

找对 “充电站”，心理从业者进阶不迷路！灵动生活集团幸福心理

“考下资格证却接不到个案，能做咨询却不懂怎么运营工作室”—— 这是国内超 70% 心理从业者入行后都会遇到的 “成长困境”

2025-11-05 18:01:00

第二十届福州市青少年机器人竞赛圆满落幕近3500名青少年点

福州新闻网11月5日讯（记者徐昕昀文/图）11月2日，随着最后一场机器人竞技挑战赛的终场指令在福州高新区青少年活动中心响起

2025-11-05 18:05:00

全球好物汇聚进博会 67国展示特色产品

大皖新闻讯月壤样本、时速450公里动车组模型、特斯拉金色无人驾驶车……第八届中国国际进口博览会于11月5日在上海国家会展中心盛大开幕

2025-11-05 19:10:00

磷虾油比较好的品牌有哪些磷虾油哪个牌子更值得信赖

在现代快节奏的生活方式下,越来越多的人开始关注心脑血管健康、关节灵活性以及认知功能的日常养护。随着营养科学的进步,一种源自南极深海的天然营养来源——磷虾油

2025-11-05 19:37:00

头条订阅服务

无一大模型及格！ 北大/通研院提出超难基准，评估长文本理解生成

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生成