• 我的订阅
  • 科技

大幅减缓幻觉 百融云创大模型精度测评结果出炉

类别:科技 发布时间:2024-03-28 16:16:00 来源:消费日报网

近日,百融云创大模型参加一场“考试”,并取得了行业领先的成绩,多项指标优于ChatGPT3.5。

随着各类大模型的相继问世,如何去评估大模型的性能变得越来越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,这是对大模型处理“幻觉问题”的能力测评,也是对大模型生成内容准确性的测评。

尽管大模型带来令人兴奋的技术进步,但“幻觉”一直是制约其发展的主要挑战之一。大模型出现幻觉,轻则“画虎类犬”,重则“胡说八道”。即便是强大如Sora,它生成的视频中也有“翻车”的场面。比如那个经典的女郎漫步视频,如果仔细观察会发现,女郎走路的过程中出现了腿部变形、左右腿交叉错乱,甚至还有右腿连续两次前进的情况。

如果只是作为娱乐性的观赏,对这些“幻觉”我们尚能一笑了之。但当大模型用做产业落地,“幻觉”就是大问题。试想一下,用大模型去写一份严谨的财务报表,一个小数点的错误都是一场灾难。这也是在核心领域,人们还不敢完全放手交给大模型去做的重要原因。

大模型为什么会出现幻觉?

过时的知识、混入错误信息、以及缺乏特定领域的专业知识,都是导致大模型幻觉的“元凶”。

为了从源头化解这一问题,人们提出了一种名叫检索增强生成 (RAG)的技术。RAG就像是为大模型开了一个“外挂”,能够联通互联网实时信息、以及特定领域的专业知识。这一技术不仅提高了大模型的准确性和可靠性,还使其能够更好地理解上下文,并将检索到的知识融入到生成过程中,从而生成更加贴合实际需求的文本。

但RAG也并非完美无缺。互联网上的信息五花八门,存在着大量的干扰内容,甚至假新闻,这给准确检索所需知识带来了挑战。为了评估大模型利用RAG的有效性,有第三方测评机构提出了检索增强生成基准(Retrieval-Augmented Generation Benchmark)——RGB。RGB总结出不同大模型在RAG所需的4种基本能力,包括噪声鲁棒性、负抑制、信息集成和反事实鲁棒性,并根据这四种能力划分为4个独立的测试台。基于RGB,技术团队对6个包括百融云创大模型、ChatGPT3.5在内的大模型进行了评测。

在测试中一共设置了600个问题,其中300个IDK(没有正确答案的问题),300个非IDK问题(有正确答案的问题),百融云创大模型在回答非IDK问题时准确率达到67.7%左右,回答IDK问题时的准确率达到33.3%,整体准确率达到50.5%,略高于ChatGPT3.5的50.3%。

大幅减缓幻觉 百融云创大模型精度测评结果出炉

孔子曰,知之为知之,不知为不知,是知也,一个“聪明”的大模型也要有这种精神。当前,很多大模型面对自己不知道的事情,偏要强行给出错误答案。要想减少幻觉,保证精准性,大模型要对于没有准确答案的问题说“不知道”,对于有明确答案的问题,要能准确识别。

在这方面,百融云创大模型表现良好。

比如说,在测试环节,有个问答题中给出了大量的文本资料,但文本内容中并未放入准确的答案。百融云创大模型在检索和学习这个文本后,直接给出了“不知道”的回答,而非选择满嘴跑火车式的硬答。

而另外一个问答题,它在五个答案中混入四个错误答案,百融云创大模型能精准找到那个唯一的正确答案并生成回答。值得一提是,在生成回答的同时,百融云创大模型还会自动显示索引来源,信息的源头,让用户清楚知道这个信息来自于哪里,这将大大增加用户对大模型的信任感。

对于精准度的极致追求,源自于百融云创的业务特点。百融云创深入产业服务,深知在场景应用层面,尤其在金融、保险乃至医疗健康领域,对于模型精准度的要求有多高,对于错误的容忍度有多低。百融云创大模型从产业中来,到产业中去,结合行业know-how的沉淀,模型持续迭代来不断提升服务的精准度。这也是百融云创为客户创收,为终端业务KPI负责的技术底气。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-28 17:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...品|搜狐科技作者|张雅婷随着DeepSeek的爆火,公众对AI幻觉的担忧也日益加剧。比如,不少人通过DeepSeek辅助就医
2025-03-05 15:54:00
“80后死亡率高”疑似是AI造谣,AI已经开始胡说八道了
...让人心颤。在AI业界,这类“胡说八道”的本领被称为“幻觉(hallucination)”,意思是,AI也像人产生心理幻觉一样,在遇到自己不熟悉、不在知识范围的问题时,编造难以
2025-03-11 05:56:00
“80后死亡率超5%”,别上假数据的当
...歌董事长王磊告诉《新周刊》:“我猜测这可能与模型的精度有关。” 有专家认为,AI软件在增强创意和想象力的同时,不可避免地增加了产生幻觉的副作用。 (图/《人工智能》) 王磊
2025-04-02 21:37:00
深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」
...究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉」的原因,发现模型输出的准确性高度依赖于训练数据的质量和数量。研究结果指出,大模型在处理有广泛共识的问题时表现较好,但在
2024-10-26 09:51:00
人工智能的“胡言乱语”,有没有解法?
...I的强大功能,并由此感叹其是否可能取代人类劳动时,AI幻觉问题也越来越不容忽视,成为AI进一步发展的阻碍。 Yann LeCun——世界深度学习三巨头之一,“卷积神经网之络
2023-08-31 10:10:00
华网·两会科技聚焦|360集团周鸿祎:以“安全即服务”破解网络安全行业困局,柔性监管激活AI创造力
...构设计、蛋白质折叠预测等创新研究;在医疗、金融等高精度场景中,则可通过检索增强生成(RAG)技术实时修正错误。因此,他呼吁借鉴互联网时代的“避风港原则”,对大模型“幻觉”实施
2025-03-05 13:49:00
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
【新智元导读】大模型幻觉,究竟是怎么来的?谷歌、苹果等机构研究人员发现,大模型知道的远比表现的要多。它们能够在内部编码正确答案,却依旧输出了错误内容。到现在为止,我们仍旧对大模型
2024-11-11 13:32:00
ChatGPT张口就来的“病”应该怎么“治”?
...章,让 ChatGPT 如此「自信胡扯」的原因,是 AI 产生了「幻觉」。那么,是什么让 AI 大语言模型产生了「幻觉」
2023-04-14 18:04:00
大模型用于招采评审,这样解决“AI幻觉”问题!
...采购知识图谱,能够避免通用大模型在垂直领域应用的“幻觉”问题;再基于OCR+NLP技术解析投标文件中的资质证书、财务报表等,与招标清单的单价、数量偏差,进行比对,分钟级完成数
2025-04-24 16:45:00
更多关于科技的资讯:
“西湖纹样”小程序正式上线杭州日报讯 第十九届杭州文博会上,西湖区的展馆前天天大排长龙。纹样编织袋、纹样透卡、纹样茶点礼盒
2026-02-12 06:41:00
2月6日,上海超导科技股份有限公司向太原钢铁(集团)有限公司发出一封感谢信,披露太钢与该企业一场历时五年的联合攻坚结出的硕果
2026-02-12 07:31:00
李建南摘要:随着大模型在预测、生成与复杂模式识别中的广泛应用,统计建模范式正在经历深刻转变。相较于以概率假设与参数推断为核心的传统统计模型
2026-02-12 07:32:00
以科技自立自强构筑创新高地杭州日报讯 近日,在湖州莫干山高新区,灵心巧手(Linkerbot)年产3万套具身智能机器人灵巧手的超级工厂项目正在全速推进
2026-02-12 07:11:00
中新经纬2月11日电 据国家市场监督管理总局网站消息,2月4日,国务院反垄断反不正当竞争委员会印发施行《关于公用事业领域的反垄断指南》(以下简称《指南》)
2026-02-11 20:18:00
季季有主题,周周有优惠!2026年河北省电影惠民观影促消费活动启动
河北日报客户端讯(记者肖煜)为积极响应落实国家电影局全国电影惠民消费季安排,进一步激活河北电影市场消费潜力,丰富群众文化生活
2026-02-11 22:05:00
2025国际宠物博览会落幕:Benarmi倡导全生命周期健康管理
12月20日,2025国际宠物博览会在北京市平谷区博物馆、体育中心拉开帷幕,汇聚全球名宠、产业企业与创新项目,集中展现宠物经济的前沿动态与发展趋势
2026-02-11 20:08:00
“民生科幻”领军人吴楚新作《背叛文明》出版,聚焦星际外交博弈
如果高等文明的馈赠是一颗带毒的蜜糖,那人类是否有智慧拒绝唾手可得的诱惑?当思想需要向未来跨出一大步时,阅读科幻依然是当下最高效的途径
2026-02-11 17:22:00
随着云计算、大数据、人工智能等数智技术的迅猛发展,传统劳动形态正经历着前所未有的变革。工作场所的虚拟化、劳动时间的弹性化以及用工关系的多元化
2026-02-11 17:31:00
厦门城市可信数据空间开放试运行推出“马上有数”进驻激励计划 首发5个月资源免费共享东南网2月11日讯 (海峡导报记者 康泽辉) 近日
2026-02-11 17:50:00
元梦空间荣膺两项大奖 闪耀2025人工智能未来设计大赛
2025年11月10日,由工业和信息化部工业文化发展中心主办的2025“人工智能未来设计大赛”全国总决赛在山西太原圆满落幕
2026-02-11 17:50:00
【寒假摘镜总动员】选择哪种近视手术方式?——济南普瑞眼科王晓雪主任为您专业解析
视力是体检中至关重要的一环。选择一种既安全稳定、又符合体检标准的近视手术方式,是实现梦想的关键一步。济南普瑞眼科作为山东省首批蔡司全飞秒4
2026-02-11 17:51:00
潮新闻讯 随着人工智能兴起,数据要素领域的生产性服务业,规模正迅速壮大。近日,浙江省委副书记、省长刘捷在杭州专题调研服务业发展工作
2026-02-11 17:58:00
俊小白与上海吴淞材料实验室联合成立实验室
中国消费者报北京讯(记者孙蔚)近日,上海吴淞材料实验室与国货科创口腔护理品牌俊小白联合成立的个人护理功能介孔材料联合实验室正式落成
2026-02-11 18:06:00
大皖新闻讯 大皖新闻记者从国先中心(合肥)了解到,日前,零次方机器人率先完成中国信通院“可信AI”具身智能基准测试(EAI Bench)
2026-02-11 18:18:00