我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

谷歌发布 FACTS Grounding 基准，AI 大语言模型“幻觉照妖镜”

类别：科技发布时间：2024-12-19 09:32:00 来源：IT之家

IT之家 12 月 18 日消息，谷歌 DeepMind 团队于 12 月 17 日发布博文，宣布推出 FACTS Grounding 基准测试，评估大型语言模型（LLMs）根据给定材料是否准确作答，并避免“幻觉”（即捏造信息）的能力，从而提升 LLMs 的事实准确性，增强用户信任度，并拓展其应用范围。

数据集

在数据集方面，ACTS Grounding 数据集包含 1719 个示例，涵盖金融、科技、零售、医疗和法律等多个领域，每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。

示例文档长度不一，最长可达 32000 个 token（约 20000 字）。用户请求涵盖摘要、问答生成和改写等任务，但不包含需要创造力、数学或复杂推理的任务。IT之家附上演示图片如下：

数据集分为 860 个“公共”示例和 859 个“私有”示例，目前已发布公共数据集供评估使用，私有数据集用于排行榜评分，以防止基准污染和排行榜作弊。

评估方案

在评估方案上，FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作为评委，评估答案的充分性、事实准确性和文档支持性。

评估分为两个阶段：首先评估响应是否符合资格，即是否充分回答了用户请求；然后评估响应的事实准确性，即是否完全基于所提供的文档，有没有出现“幻觉”，然后基于该模型在所有示例上的平均得分，最终计算得出。

在 FACTS Grounding Benchmark 中，谷歌的 Gemini 模型在事实准确的文本生成方面取得了最高分。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-12-19 12:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于照妖镜,基准,幻觉,模型,语言,示例的资讯：

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布

...3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调

2024-10-16 13:35:00

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...的研究人员联合撰写百页长文，发布名为MultiTrust的综合基准，首次从多个维度和视角全面评估了主流多模态大模型的可信度

2024-07-25 09:31:00

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...评估 SELF-GUIDE 的有效性，研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务

2024-08-02 09:40:00

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安

...。该团队通过实验表明，RBR 得到的安全性能与人类反馈基准相当，同时还能大幅减少拒绝安全提示词的情况。研究表明 RBR 适用于多种奖励模型，既能改善过度谨慎的奖励模型，也

2024-11-07 09:54:00

AI幻觉：它真的会一本正经胡说八道！

...实时，却发现这些信息完全是虚构的？这就是著名的“AI幻觉”现象。上下滑动查看更多，图源：河森堡新浪微博为什么会出现AI幻觉呢？今天就让我们一起来揭开这个谜题。为什么会出现AI

2025-02-19 18:57:00

LLM取代的第一个编程语言竟是SQL？网友吵翻天

...是在推广自家产品。这位网友进一步质疑道：「当脱离了基准测试里的简单任务，需要做比较复杂的查询时，不会所有 AI 工具都失效了吧。」评论区也有很多工作中常用 SQL 的网友与他

2024-08-28 09:43:00

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM）。在12个自动评分器评估基准中的8个基准上，FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o

2024-08-05 09:37:00

SEO 已死，LLMO 万岁

...，用户不会看到上下文提示。实验证明，在自然语言处理基准上，相比于更多数据上训练的模型，上下文学习更具有竞争力，已经可以取代大部分语言模型的微调。同时，上下文学习方法在 LAM

2022-12-29 10:00:00

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...的输出。- 提高精度并处理边缘情况：微调可以用于纠正幻觉或错误，这些错误很难通过prompt和上下文学习来纠正。它还可以增强模型执行新技能或任务的能力，这些技能或任务很难在提

2024-08-27 12:03:00

更多关于科技的资讯：

新增5家，江宁开发区外资研发中心数量全市第一

南报网讯（通讯员毛欣悦记者张希）近日，2025年度南京市新核定的外资研发中心名单公布，江宁开发区5家外资研发中心核定入选

2025-08-25 07:38:00

从清北退学的年轻人，当月入五千的CEO

与其浪费时间，不如直接退学还有一年就要从北大医学院毕业的大三学生阿布，决定从北大退学了。阿布提交了退学申请后，学校的老师并没有立刻批准

2025-08-24 19:17:00

京东建材超品日全渠道大幅增长卫浴、灯饰照明品类成交额增长超

8月20日晚8点开启的京东建材超级品类日，掀起了今秋第一场家装消费热潮。开售仅1小时，全品类成交额同比增长超2倍；截至8月21日23:59

2025-08-24 20:52:00

产业一线｜烈日炎炎！这些硬核防晒美白你做对了吗

烈日炎炎！防晒美白需注意哪些关键因素？近日，护肤品牌谷雨研发负责人李安章从专业角度支招，向中新经纬产业一线栏目讲述防晒美白背后的研发与创新。来源：中新经纬编辑：熊思怡广告等商务合

2025-08-24 17:25:00

能感知环境，还能响应用户需求！全球首款人形机器人头部模组在贵

日前，贵安新区威迈尔科技有限公司（以下简称：威迈尔）正式推出全球首款人形机器人头部模组OmniHead（奥视知脑），为具身智能领域带来关键技术突破

2025-08-24 22:22:00

流量经济赋能长春农博会成果显著，线上销售额突破5200万元

第24届中国长春国际农业食品博览（交易）会胜利闭幕，在为期十天的展会上，流量经济赋能专区成为亮点。通过多平台联动、达人矩阵直播

2025-08-24 21:36:00

“车BA” 南京争霸

8月23日，“车BA”小米集团汽车部跨区域篮球争霸赛决赛在南京举行，来自北京、上海、武汉等地的7支参赛队伍齐聚古都南京，角逐冠军。南京日报/紫金山新闻记者段仁虎摄

2025-08-24 09:50:00

“关不掉”的免密支付，肥了平台的钱包？

原标题| “关不掉”的免密支付，肥了平台的钱包？近日，话题“一定要关闭免密支付和自动扣款”冲上社交平台热搜，关于免密支付功能相关的讨论再次进入大众视野

2025-08-24 05:43:00

美国医疗巨头瞄准聚焦超声无创治疗赛道

近日，由美国医疗巨头强生等十余家机构组成财团，以22.5亿美元（约人民币161亿元）闪电收购了一家专注于“无创”超声波组织碎化技术（Histotripsy）的美国医疗科技公司HistoSonics多数股权

2025-08-24 07:02:00

家电业均价下滑!三翼鸟上海体验中心九成用户选高端

中国家电市场正经历均价下行的趋势。奥维云网数据显示，2025年第1周到第11周，空调、冰箱、洗衣机线上渠道均价同比分别下滑3

2025-08-23 08:20:00

在意大利：海尔空调销量TOP1

今夏，欧洲人经历了严酷“烤”验。八月初，受罕见热浪侵袭，意大利、法国等多国发布高温红色预警，西班牙南部气候飙升至46℃

2025-08-23 08:21:00

握紧“科技金属”话语权：中国铝材料产业的全球价值链突围战——

2025年，中国新材料产业总产值预计突破10万亿元，但在被列为“卡脖子”的多项关键材料中，国产化率不足30%。铝，作为全球产量第一

2025-08-23 08:22:00

单店年入过亿！三翼鸟上海体验中心是如何做到的？

当前，实体零售业正面临着变革与挑战，一方面，线上浪潮带来的冲击清晰可见：传统卖场客流锐减、部分门店面临关停挑战，《2025到店零售3

2025-08-23 08:22:00

省心比省钱重要！三翼鸟上海体验中心8成用户定制场景

当前，消费者在居家领域的决策逻辑正经历深刻变革。过往，性价比常是左右消费者选购家电、家居产品的核心要素，而如今，“省心”已逐渐攀升至决策考量的优先位置

2025-08-23 08:23:00

微视频｜“河北五超”承德对阵保定，观赛现场抽奖送3克拉钻石

8月23日19：00，“河北五超”承德vs保定，最硬核的主场，承德“硬核宠粉”现场抽奖送钻石！

2025-08-23 08:53:00

头条订阅服务

谷歌发布 FACTS Grounding 基准，AI 大语言模型“幻觉照妖镜”