我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
3月31日消息,无论当下AI聊天机器人有多么强大,都会或多或少存在一大饱受诟病的行为——以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI有时会在回答中“满口跑火车”,甚至“造谣”。
图源Pixabay
防止AI大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒Marktechpost报道,谷歌DeepMind和斯坦福大学似乎找到了某种变通办法。
研究人员推出了一种基于大语言模型的工具——搜索增强事实评估器(IT之家注:原名为Search-AugmentedFactualityEvaluator,简称SAFE),可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布,点此查看
该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估,以验证准确性和真实性:将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后,该系统还会检查各个事实与原始问题的相关性。
为评估其性能,研究人员创建了包含约16000个事实的数据集LongFact,并在来自Claude、Gemini、GPT、PaLM-2的13个大语言模型上测试了该系统。结果显示,在对100个有争议的事实进行的重点分析中,SAFE的判定在进一步审查下正确率达到76%。与此同时,该框架还具备经济性优势:成本比人工注释便宜20多倍。
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2024-04-01 18:45:23
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: