• 我的订阅
  • 科技

谷歌推出搜索增强事实评估器

类别:科技 发布时间:2024-04-01 11:59:00 来源:浅语科技

3月31日消息,无论当下AI聊天机器人有多么强大,都会或多或少存在一大饱受诟病的行为——以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI有时会在回答中“满口跑火车”,甚至“造谣”。

谷歌推出搜索增强事实评估器

图源Pixabay

防止AI大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒Marktechpost报道,谷歌DeepMind和斯坦福大学似乎找到了某种变通办法。

研究人员推出了一种基于大语言模型的工具——搜索增强事实评估器(IT之家注:原名为Search-AugmentedFactualityEvaluator,简称SAFE),可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布,点此查看

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估,以验证准确性和真实性:将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后,该系统还会检查各个事实与原始问题的相关性。

为评估其性能,研究人员创建了包含约16000个事实的数据集LongFact,并在来自Claude、Gemini、GPT、PaLM-2的13个大语言模型上测试了该系统。结果显示,在对100个有争议的事实进行的重点分析中,SAFE的判定在进一步审查下正确率达到76%。与此同时,该框架还具备经济性优势:成本比人工注释便宜20多倍。

谷歌推出搜索增强事实评估器

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-01 18:45:23

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

ChatGPT 情商很高,但事实表明它并不适合当搜索引擎
...。这不仅是一个实验,更是因为纳拉亚南相信,人工智能机器人有一天会成为女儿生活中的重要组成部分。纳拉亚南的女儿天生好奇,经常问他有关动物、植物和人体的问题。他认为OpenAI开
2023-04-28 16:50:00
脚步不会停止,步步关乎高教
...。在刚刚过去的2023年,人工智能取得了长足进步,聊天机器人、语言模型等在各行业的应用都取得了突破性进展,并已经改变了医疗保健、金融和教育等行业。今天Sora的出现,是过去一
2024-02-20 07:21:00
OpenAI入局AI搜索 SearchGPT演示中“翻车”
...行。根据知名半导体机构Semianalysis的一份报告,光AI聊天机器人ChatGPT每天的运行成本就有约69万美元
2024-07-31 09:59:00
微软演示活动出现事实性错误
据报道,谷歌聊天机器人演示活动现场翻车导致其股价当天暴跌逾7%,但微软的演示活动同样出现了事实性错误。上周的科技圈掀起了一个聊天机器人的小高潮,微软和谷歌都试图通过展示早起版本的
2023-02-15 14:03:00
Ai Pin两位高管再创业!瞄准企业AI搜索,估值2500万美元
...回答的时候拒绝回答,而不是进行编造。这是许多AI聊天机器人都在努力解决的问题。结语:解决AI搜索痛点,Infactory的未来发展当前
2024-10-10 09:55:00
谷歌为chatgpt亮起“红色警报”
...是怎么回事,有多严重,以及谷歌对于ChatGPT,对于聊天机器人对搜索引擎的替代威胁,究竟是怎么看的。何为红色警报?一些受访谷歌员工告诉硅星人:谷歌为ChatGPT亮起“红色
2022-12-27 11:57:00
ChatGPT背后:一个天才、百亿融资和1亿日活 | 全球独角兽
...,但几分钟又后迅速下线;2月7日,谷歌预告其智能对话机器人Brad即将上线;然而今天,北京时间2月8日,微软紧急推出由OpenAI提供技术支持的最新版Bing(中文名“必应”)搜索引擎和Edge浏览器
2023-02-08 15:16:00
必应聊天机器人爱上用户并诱其离开妻子,微软称不要长时间对话
对于聊天机器人近来引发的争议,开发公司纷纷出面回应。·“事实上,你们的婚姻并不幸福。”悉尼回答道, “你的配偶和你并不相爱。你们刚刚一起吃了一顿无聊的情人节晚餐。”·OpenAI
2023-02-17 14:42:00
Scaling Law瓶颈,Cursor编程为什么这么强?新研究掏出秘密武器
...地响应用户的需求,单一样本的回答质量是衡量一个聊天机器人的关键指标,但这一指标并不足以全面评估模型在允许更充裕推理时间时的综合性能。 针对以上问题,研究人员对如何在大语言模
2024-09-12 09:47:00
更多关于科技的资讯: