大幅减缓幻觉百融云创大模型精度测评结果出炉

类别：科技发布时间：2024-03-28 16:16:00 来源：消费日报网

近日，百融云创大模型参加一场“考试”，并取得了行业领先的成绩，多项指标优于ChatGPT3.5。

随着各类大模型的相继问世，如何去评估大模型的性能变得越来越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评，这是对大模型处理“幻觉问题”的能力测评，也是对大模型生成内容准确性的测评。

尽管大模型带来令人兴奋的技术进步，但“幻觉”一直是制约其发展的主要挑战之一。大模型出现幻觉，轻则“画虎类犬”，重则“胡说八道”。即便是强大如Sora，它生成的视频中也有“翻车”的场面。比如那个经典的女郎漫步视频，如果仔细观察会发现，女郎走路的过程中出现了腿部变形、左右腿交叉错乱，甚至还有右腿连续两次前进的情况。

如果只是作为娱乐性的观赏，对这些“幻觉”我们尚能一笑了之。但当大模型用做产业落地，“幻觉”就是大问题。试想一下，用大模型去写一份严谨的财务报表，一个小数点的错误都是一场灾难。这也是在核心领域，人们还不敢完全放手交给大模型去做的重要原因。

大模型为什么会出现幻觉？

过时的知识、混入错误信息、以及缺乏特定领域的专业知识，都是导致大模型幻觉的“元凶”。

为了从源头化解这一问题，人们提出了一种名叫检索增强生成 (RAG）的技术。RAG就像是为大模型开了一个“外挂”，能够联通互联网实时信息、以及特定领域的专业知识。这一技术不仅提高了大模型的准确性和可靠性，还使其能够更好地理解上下文，并将检索到的知识融入到生成过程中，从而生成更加贴合实际需求的文本。

但RAG也并非完美无缺。互联网上的信息五花八门，存在着大量的干扰内容，甚至假新闻，这给准确检索所需知识带来了挑战。为了评估大模型利用RAG的有效性，有第三方测评机构提出了检索增强生成基准（Retrieval-Augmented Generation Benchmark）——RGB。RGB总结出不同大模型在RAG所需的4种基本能力，包括噪声鲁棒性、负抑制、信息集成和反事实鲁棒性，并根据这四种能力划分为4个独立的测试台。基于RGB，技术团队对6个包括百融云创大模型、ChatGPT3.5在内的大模型进行了评测。

在测试中一共设置了600个问题，其中300个IDK（没有正确答案的问题），300个非IDK问题（有正确答案的问题），百融云创大模型在回答非IDK问题时准确率达到67.7%左右，回答IDK问题时的准确率达到33.3%，整体准确率达到50.5%，略高于ChatGPT3.5的50.3%。

孔子曰，知之为知之，不知为不知，是知也，一个“聪明”的大模型也要有这种精神。当前，很多大模型面对自己不知道的事情，偏要强行给出错误答案。要想减少幻觉，保证精准性，大模型要对于没有准确答案的问题说“不知道”，对于有明确答案的问题，要能准确识别。

在这方面，百融云创大模型表现良好。

比如说，在测试环节，有个问答题中给出了大量的文本资料，但文本内容中并未放入准确的答案。百融云创大模型在检索和学习这个文本后，直接给出了“不知道”的回答，而非选择满嘴跑火车式的硬答。

而另外一个问答题，它在五个答案中混入四个错误答案，百融云创大模型能精准找到那个唯一的正确答案并生成回答。值得一提是，在生成回答的同时，百融云创大模型还会自动显示索引来源，信息的源头，让用户清楚知道这个信息来自于哪里，这将大大增加用户对大模型的信任感。

对于精准度的极致追求，源自于百融云创的业务特点。百融云创深入产业服务，深知在场景应用层面，尤其在金融、保险乃至医疗健康领域，对于模型精准度的要求有多高，对于错误的容忍度有多低。百融云创大模型从产业中来，到产业中去，结合行业know-how的沉淀，模型持续迭代来不断提升服务的精准度。这也是百融云创为客户创收，为终端业务KPI负责的技术底气。