• 我的订阅
  • 科技

大幅减缓幻觉 百融云创大模型精度测评结果出炉

类别:科技 发布时间:2024-03-28 16:16:00 来源:消费日报网

近日,百融云创大模型参加一场“考试”,并取得了行业领先的成绩,多项指标优于ChatGPT3.5。

随着各类大模型的相继问世,如何去评估大模型的性能变得越来越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,这是对大模型处理“幻觉问题”的能力测评,也是对大模型生成内容准确性的测评。

尽管大模型带来令人兴奋的技术进步,但“幻觉”一直是制约其发展的主要挑战之一。大模型出现幻觉,轻则“画虎类犬”,重则“胡说八道”。即便是强大如Sora,它生成的视频中也有“翻车”的场面。比如那个经典的女郎漫步视频,如果仔细观察会发现,女郎走路的过程中出现了腿部变形、左右腿交叉错乱,甚至还有右腿连续两次前进的情况。

如果只是作为娱乐性的观赏,对这些“幻觉”我们尚能一笑了之。但当大模型用做产业落地,“幻觉”就是大问题。试想一下,用大模型去写一份严谨的财务报表,一个小数点的错误都是一场灾难。这也是在核心领域,人们还不敢完全放手交给大模型去做的重要原因。

大模型为什么会出现幻觉?

过时的知识、混入错误信息、以及缺乏特定领域的专业知识,都是导致大模型幻觉的“元凶”。

为了从源头化解这一问题,人们提出了一种名叫检索增强生成 (RAG)的技术。RAG就像是为大模型开了一个“外挂”,能够联通互联网实时信息、以及特定领域的专业知识。这一技术不仅提高了大模型的准确性和可靠性,还使其能够更好地理解上下文,并将检索到的知识融入到生成过程中,从而生成更加贴合实际需求的文本。

但RAG也并非完美无缺。互联网上的信息五花八门,存在着大量的干扰内容,甚至假新闻,这给准确检索所需知识带来了挑战。为了评估大模型利用RAG的有效性,有第三方测评机构提出了检索增强生成基准(Retrieval-Augmented Generation Benchmark)——RGB。RGB总结出不同大模型在RAG所需的4种基本能力,包括噪声鲁棒性、负抑制、信息集成和反事实鲁棒性,并根据这四种能力划分为4个独立的测试台。基于RGB,技术团队对6个包括百融云创大模型、ChatGPT3.5在内的大模型进行了评测。

在测试中一共设置了600个问题,其中300个IDK(没有正确答案的问题),300个非IDK问题(有正确答案的问题),百融云创大模型在回答非IDK问题时准确率达到67.7%左右,回答IDK问题时的准确率达到33.3%,整体准确率达到50.5%,略高于ChatGPT3.5的50.3%。

大幅减缓幻觉 百融云创大模型精度测评结果出炉

孔子曰,知之为知之,不知为不知,是知也,一个“聪明”的大模型也要有这种精神。当前,很多大模型面对自己不知道的事情,偏要强行给出错误答案。要想减少幻觉,保证精准性,大模型要对于没有准确答案的问题说“不知道”,对于有明确答案的问题,要能准确识别。

在这方面,百融云创大模型表现良好。

比如说,在测试环节,有个问答题中给出了大量的文本资料,但文本内容中并未放入准确的答案。百融云创大模型在检索和学习这个文本后,直接给出了“不知道”的回答,而非选择满嘴跑火车式的硬答。

而另外一个问答题,它在五个答案中混入四个错误答案,百融云创大模型能精准找到那个唯一的正确答案并生成回答。值得一提是,在生成回答的同时,百融云创大模型还会自动显示索引来源,信息的源头,让用户清楚知道这个信息来自于哪里,这将大大增加用户对大模型的信任感。

对于精准度的极致追求,源自于百融云创的业务特点。百融云创深入产业服务,深知在场景应用层面,尤其在金融、保险乃至医疗健康领域,对于模型精准度的要求有多高,对于错误的容忍度有多低。百融云创大模型从产业中来,到产业中去,结合行业know-how的沉淀,模型持续迭代来不断提升服务的精准度。这也是百融云创为客户创收,为终端业务KPI负责的技术底气。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-28 17:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」
...究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉」的原因,发现模型输出的准确性高度依赖于训练数据的质量和数量。研究结果指出,大模型在处理有广泛共识的问题时表现较好,但在
2024-10-26 09:51:00
人工智能的“胡言乱语”,有没有解法?
...I的强大功能,并由此感叹其是否可能取代人类劳动时,AI幻觉问题也越来越不容忽视,成为AI进一步发展的阻碍。 Yann LeCun——世界深度学习三巨头之一,“卷积神经网之络
2023-08-31 10:10:00
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
【新智元导读】大模型幻觉,究竟是怎么来的?谷歌、苹果等机构研究人员发现,大模型知道的远比表现的要多。它们能够在内部编码正确答案,却依旧输出了错误内容。到现在为止,我们仍旧对大模型
2024-11-11 13:32:00
ChatGPT张口就来的“病”应该怎么“治”?
...章,让 ChatGPT 如此「自信胡扯」的原因,是 AI 产生了「幻觉」。那么,是什么让 AI 大语言模型产生了「幻觉」
2023-04-14 18:04:00
幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术
...在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时
2024-11-05 09:49:00
...惊叹ChatGPT强大能力的同时,人们也表达了深深的忧虑。幻觉问题首先是幻觉问题。所谓幻觉,用通俗的话说就是“一本正经说瞎话”。使用过ChatGPT等生成式人工智能的人可能都
2023-07-08 05:04:00
美国执念抹黑他国 恰似人工智能“幻觉”
“幻觉”,在人工智能领域是一个专业术语,被用于描述机器可能输出“无中生有”的内容。这样的“幻觉”也出现在一些美国政客身上,他们无中生有地污称中国用人工智能技术收集美国人数据。治疗
2023-12-30 19:00:00
容易“幻觉”的大模型与最严肃制造竟双向奔赴了?造船、高端装备已着迷……
...制造,以及化工等流程制造近期也迎来大模型。易产生“幻觉”的大模型,与最不能容忍“一本正经胡说八道”的工业,何以双向奔赴?何以胜任工业是AI大模型应用真正的主战场。传统AI对制
2024-08-12 09:41:00
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...在实际应用中,比如政务和医疗问答场景,取得了显著的精度提升,表明其在专业决策中的有效性。5) KAG 模型:定义 LLMs 与 KGs 之间的协同任务KAG 模型旨在降低大型语言模型(LLMs)与知识图谱(KGs)结合的成本
2024-09-13 13:33:00
更多关于科技的资讯: