• 我的订阅
  • 科技

谷歌发布 FACTS Grounding 基准,AI 大语言模型“幻觉照妖镜”

类别:科技 发布时间:2024-12-19 09:32:00 来源:IT之家

IT之家 12 月 18 日消息,谷歌 DeepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用范围。

数据集

在数据集方面,ACTS Grounding 数据集包含 1719 个示例,涵盖金融、科技、零售、医疗和法律等多个领域,每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。

示例文档长度不一,最长可达 32000 个 token(约 20000 字)。用户请求涵盖摘要、问答生成和改写等任务,但不包含需要创造力、数学或复杂推理的任务。IT之家附上演示图片如下:

谷歌发布 FACTS Grounding 基准,AI 大语言模型“幻觉照妖镜”

数据集分为 860 个“公共”示例和 859 个“私有”示例,目前已发布公共数据集供评估使用,私有数据集用于排行榜评分,以防止基准污染和排行榜作弊。

谷歌发布 FACTS Grounding 基准,AI 大语言模型“幻觉照妖镜”

评估方案

在评估方案上,FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作为评委,评估答案的充分性、事实准确性和文档支持性。

谷歌发布 FACTS Grounding 基准,AI 大语言模型“幻觉照妖镜”

评估分为两个阶段:首先评估响应是否符合资格,即是否充分回答了用户请求;然后评估响应的事实准确性,即是否完全基于所提供的文档,有没有出现“幻觉”,然后基于该模型在所有示例上的平均得分,最终计算得出。

在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事实准确的文本生成方面取得了最高分。

谷歌发布 FACTS Grounding 基准,AI 大语言模型“幻觉照妖镜”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-19 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调
2024-10-16 13:35:00
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度
2024-07-25 09:31:00
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...评估 SELF-GUIDE 的有效性,研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务
2024-08-02 09:40:00
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...。 该团队通过实验表明,RBR 得到的安全性能与人类反馈基准相当,同时还能大幅减少拒绝安全提示词的情况。 研究表明 RBR 适用于多种奖励模型,既能改善过度谨慎的奖励模型,也
2024-11-07 09:54:00
AI幻觉:它真的会一本正经胡说八道!
...实时,却发现这些信息完全是虚构的?这就是著名的“AI幻觉”现象。上下滑动查看更多,图源:河森堡新浪微博为什么会出现AI幻觉呢?今天就让我们一起来揭开这个谜题。为什么会出现AI
2025-02-19 18:57:00
LLM取代的第一个编程语言竟是SQL?网友吵翻天
...是在推广自家产品。这位网友进一步质疑道:「当脱离了基准测试里的简单任务,需要做比较复杂的查询时,不会所有 AI 工具都失效了吧。」评论区也有很多工作中常用 SQL 的网友与他
2024-08-28 09:43:00
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。在12个自动评分器评估基准中的8个基准上,FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o
2024-08-05 09:37:00
SEO 已死,LLMO 万岁
...,用户不会看到上下文提示。实验证明,在自然语言处理基准上,相比于更多数据上训练的模型,上下文学习更具有竞争力,已经可以取代大部分语言模型的微调。同时,上下文学习方法在 LAM
2022-12-29 10:00:00
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...的输出。- 提高精度并处理边缘情况:微调可以用于纠正幻觉或错误,这些错误很难通过prompt和上下文学习来纠正。它还可以增强模型执行新技能或任务的能力,这些技能或任务很难在提
2024-08-27 12:03:00
更多关于科技的资讯:
人工智能如何赋能“安徽万物”?
大皖新闻讯 1月16日,《安徽省“人工智能+万物”应用行动方案》发布,到2030年,安徽“人工智能+万物”应用落地将超万个
2026-01-17 21:56:00
鲁网1月17日讯1月13日上午,普惠(临沂)投资服务有限公司考察组一行赴临沂市供应链金融协会开展学习交流活动。临沂市供应链金融协会会长
2026-01-17 14:47:00
1月16日,全球最大、起重量达2300吨的桥面吊机在河北省秦皇岛市一装备制造企业正式下线,标志着我国在大型桥梁施工装备领域又获重大突破
2026-01-17 15:44:00
2026天然苏打水市场趋势:健康化、场景化成主流 泉匠深耕多区域市场实现销量突破
随着健康消费理念的深度渗透,天然苏打水行业正迎来高质量发展的黄金期。据行业权威报告预测,2026年中国天然苏打水市场规模将突破260亿元
2026-01-17 15:58:00
开元云与广西大学人工智能学院达成战略合作,共建AI产教融合新高地
广西大学人工智能学院常务副院长张振荣、副院长赵志刚、陈燕教授等老师,出席双方产学研合作签约仪式。2026年1月15日 广西南宁
2026-01-17 15:58:00
数据接口安全风险监测国标正式发布!深信服深度参编
根据2025年12月2日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2025年第33号)
2026-01-17 16:00:00
近日,国网潢川县供电公司依托用电信息采集系统及“专变负载可视化”数据集,构建反向有功异常自动监测告警机制,实现非光伏用户反向用电异常精准识别处置
2026-01-17 16:00:00
新消费|万物皆可租!这届年轻人为何“能租就不买”?
租一台口袋相机只需30元一天专业优质的画质却可以让旅途回忆更生动用百来元就能配齐一整套露营装备花100元便能轻松满足整趟出国旅行的穿搭需要……如今越来越多的年轻人正通过“租赁”重新定义自己的消费方式近日
2026-01-17 16:54:00
冷暖省电双先锋!美的酷省电二代横扫抖音商城三榜冠军
2026刚开年,空调行业首款爆品已然出现——全新上市美的酷省电二代便凭硬核实力脱颖而出,强势斩获抖音商城智能空调爆款榜
2026-01-17 16:00:00
厦门钨业通过技术创新与人才创新,不断攻克行业技术难题,塑造发展新动能让“有色”更出色东南网1月17日讯 (福建日报记者 戴敏 李向娟)近日
2026-01-17 11:38:00
在漳州龙文区,智能机器人等一批前沿项目正在聚集,新质生产力蓬勃生长——“未来场景”来到家门口东南网1月17日讯 (福建日报报业集团记者 杨凌怡 通讯员 张小惠)广场前
2026-01-17 11:41:00
中国姚绣站上巴黎大展C位
1月15日至19日,非遗苏绣品牌姚绣(Yao Silk)再度亮相巴黎M&O展,成为本届展会Fine Craft(精品工艺)展区唯一中国品牌
2026-01-17 09:40:00
民大学子全国“摘金” AI巧解垃圾分类与楼宇管理难题
荆楚网(湖北日报网)讯(记者林杉 许文秀 通讯员陈韶月 张祎晗)面对垃圾分类的效率瓶颈,人工智能与机械设计如何给出更优解
2026-01-17 10:36:00
长白时评评论员 久泰平近日多起滥用“七天无理由退货”的新闻引发社会关注。有商家曝光,有学生集体网购演出服,演出后再把带着污渍
2026-01-17 05:55:00
1月14日消息,工业和信息化部近日公布了2025年全国中小企业人工智能典型应用场景名单,晋西春雷自主研发的“AI视觉质检实现铜带缺陷精准识别”项目成功入选
2026-01-17 07:39:00