• 我的订阅
  • 科技

谷歌推出搜索增强事实评估器

类别:科技 发布时间:2024-04-01 11:59:00 来源:浅语科技

3月31日消息,无论当下AI聊天机器人有多么强大,都会或多或少存在一大饱受诟病的行为——以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI有时会在回答中“满口跑火车”,甚至“造谣”。

谷歌推出搜索增强事实评估器

图源Pixabay

防止AI大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒Marktechpost报道,谷歌DeepMind和斯坦福大学似乎找到了某种变通办法。

研究人员推出了一种基于大语言模型的工具——搜索增强事实评估器(IT之家注:原名为Search-AugmentedFactualityEvaluator,简称SAFE),可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布,点此查看

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估,以验证准确性和真实性:将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后,该系统还会检查各个事实与原始问题的相关性。

为评估其性能,研究人员创建了包含约16000个事实的数据集LongFact,并在来自Claude、Gemini、GPT、PaLM-2的13个大语言模型上测试了该系统。结果显示,在对100个有争议的事实进行的重点分析中,SAFE的判定在进一步审查下正确率达到76%。与此同时,该框架还具备经济性优势:成本比人工注释便宜20多倍。

谷歌推出搜索增强事实评估器

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-01 18:45:23

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

ChatGPT 情商很高,但事实表明它并不适合当搜索引擎
...。这不仅是一个实验,更是因为纳拉亚南相信,人工智能机器人有一天会成为女儿生活中的重要组成部分。纳拉亚南的女儿天生好奇,经常问他有关动物、植物和人体的问题。他认为OpenAI开
2023-04-28 16:50:00
脚步不会停止,步步关乎高教
...。在刚刚过去的2023年,人工智能取得了长足进步,聊天机器人、语言模型等在各行业的应用都取得了突破性进展,并已经改变了医疗保健、金融和教育等行业。今天Sora的出现,是过去一
2024-02-20 07:21:00
OpenAI入局AI搜索 SearchGPT演示中“翻车”
...行。根据知名半导体机构Semianalysis的一份报告,光AI聊天机器人ChatGPT每天的运行成本就有约69万美元
2024-07-31 09:59:00
微软演示活动出现事实性错误
据报道,谷歌聊天机器人演示活动现场翻车导致其股价当天暴跌逾7%,但微软的演示活动同样出现了事实性错误。上周的科技圈掀起了一个聊天机器人的小高潮,微软和谷歌都试图通过展示早起版本的
2023-02-15 14:03:00
Ai Pin两位高管再创业!瞄准企业AI搜索,估值2500万美元
...回答的时候拒绝回答,而不是进行编造。这是许多AI聊天机器人都在努力解决的问题。结语:解决AI搜索痛点,Infactory的未来发展当前
2024-10-10 09:55:00
谷歌为chatgpt亮起“红色警报”
...是怎么回事,有多严重,以及谷歌对于ChatGPT,对于聊天机器人对搜索引擎的替代威胁,究竟是怎么看的。何为红色警报?一些受访谷歌员工告诉硅星人:谷歌为ChatGPT亮起“红色
2022-12-27 11:57:00
ChatGPT背后:一个天才、百亿融资和1亿日活 | 全球独角兽
...,但几分钟又后迅速下线;2月7日,谷歌预告其智能对话机器人Brad即将上线;然而今天,北京时间2月8日,微软紧急推出由OpenAI提供技术支持的最新版Bing(中文名“必应”)搜索引擎和Edge浏览器
2023-02-08 15:16:00
必应聊天机器人爱上用户并诱其离开妻子,微软称不要长时间对话
对于聊天机器人近来引发的争议,开发公司纷纷出面回应。·“事实上,你们的婚姻并不幸福。”悉尼回答道, “你的配偶和你并不相爱。你们刚刚一起吃了一顿无聊的情人节晚餐。”·OpenAI
2023-02-17 14:42:00
Scaling Law瓶颈,Cursor编程为什么这么强?新研究掏出秘密武器
...地响应用户的需求,单一样本的回答质量是衡量一个聊天机器人的关键指标,但这一指标并不足以全面评估模型在允许更充裕推理时间时的综合性能。 针对以上问题,研究人员对如何在大语言模
2024-09-12 09:47:00
更多关于科技的资讯:
华夏银行临沂分行发布宠物行业生态圈暨萌宠主题卡 以金融力量赋能琅琊“萌宠经济”
鲁网1月18日讯2026年1月18日,华夏银行临沂分行在万达广场举办“宠物行业生态圈暨萌宠主题卡发布会”。本次活动以“金融赋能生活
2026-01-18 19:56:00
当河南周口郸城县影院的太空舱躺椅坐满返乡青年,当北京“影院新空间”变身球迷狂欢的第二主场,当三、四线城市IMAX厅票房年增85
2026-01-18 19:10:00
吉林大学19个专业停招
近日,吉林大学正式更新本科专业设置情况,141个本科专业的布局调整引发关注。据1月12日校方公开信息,吉林大学共有141个本科专业
2026-01-18 19:48:00
中新经纬1月18日电 据路透社1月18日报道,据周五提交的法庭文件显示,埃隆・马斯克正向OpenAI及微软公司索赔最高1340亿美元(约合人民币超9340亿元)
2026-01-18 12:53:00
厦门网讯(厦门日报 佘峥)1月20日起,厦门大学思明校区访客预约入校方式改变,将采用“线上预约+摇号”形式。厦大保卫处近日发布消息
2026-01-18 08:43:00
河北日报讯(记者王璐丹)近日,平方公里阵列天文台(SKAO)官网发布消息,位于南非的平方公里阵列中频射电望远镜(SKA-Mid)首次成功获得干涉条纹
2026-01-18 07:54:00
人工智能如何赋能“安徽万物”?
大皖新闻讯 1月16日,《安徽省“人工智能+万物”应用行动方案》发布,到2030年,安徽“人工智能+万物”应用落地将超万个
2026-01-17 21:56:00
鲁网1月17日讯1月13日上午,普惠(临沂)投资服务有限公司考察组一行赴临沂市供应链金融协会开展学习交流活动。临沂市供应链金融协会会长
2026-01-17 14:47:00
1月16日,全球最大、起重量达2300吨的桥面吊机在河北省秦皇岛市一装备制造企业正式下线,标志着我国在大型桥梁施工装备领域又获重大突破
2026-01-17 15:44:00
2026天然苏打水市场趋势:健康化、场景化成主流 泉匠深耕多区域市场实现销量突破
随着健康消费理念的深度渗透,天然苏打水行业正迎来高质量发展的黄金期。据行业权威报告预测,2026年中国天然苏打水市场规模将突破260亿元
2026-01-17 15:58:00
开元云与广西大学人工智能学院达成战略合作,共建AI产教融合新高地
广西大学人工智能学院常务副院长张振荣、副院长赵志刚、陈燕教授等老师,出席双方产学研合作签约仪式。2026年1月15日 广西南宁
2026-01-17 15:58:00
数据接口安全风险监测国标正式发布!深信服深度参编
根据2025年12月2日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2025年第33号)
2026-01-17 16:00:00
近日,国网潢川县供电公司依托用电信息采集系统及“专变负载可视化”数据集,构建反向有功异常自动监测告警机制,实现非光伏用户反向用电异常精准识别处置
2026-01-17 16:00:00
新消费|万物皆可租!这届年轻人为何“能租就不买”?
租一台口袋相机只需30元一天专业优质的画质却可以让旅途回忆更生动用百来元就能配齐一整套露营装备花100元便能轻松满足整趟出国旅行的穿搭需要……如今越来越多的年轻人正通过“租赁”重新定义自己的消费方式近日
2026-01-17 16:54:00
冷暖省电双先锋!美的酷省电二代横扫抖音商城三榜冠军
2026刚开年,空调行业首款爆品已然出现——全新上市美的酷省电二代便凭硬核实力脱颖而出,强势斩获抖音商城智能空调爆款榜
2026-01-17 16:00:00