• 我的订阅
  • 科技

大幅减缓幻觉 百融云创大模型精度测评结果出炉

类别:科技 发布时间:2024-03-28 16:16:00 来源:消费日报网

近日,百融云创大模型参加一场“考试”,并取得了行业领先的成绩,多项指标优于ChatGPT3.5。

随着各类大模型的相继问世,如何去评估大模型的性能变得越来越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,这是对大模型处理“幻觉问题”的能力测评,也是对大模型生成内容准确性的测评。

尽管大模型带来令人兴奋的技术进步,但“幻觉”一直是制约其发展的主要挑战之一。大模型出现幻觉,轻则“画虎类犬”,重则“胡说八道”。即便是强大如Sora,它生成的视频中也有“翻车”的场面。比如那个经典的女郎漫步视频,如果仔细观察会发现,女郎走路的过程中出现了腿部变形、左右腿交叉错乱,甚至还有右腿连续两次前进的情况。

如果只是作为娱乐性的观赏,对这些“幻觉”我们尚能一笑了之。但当大模型用做产业落地,“幻觉”就是大问题。试想一下,用大模型去写一份严谨的财务报表,一个小数点的错误都是一场灾难。这也是在核心领域,人们还不敢完全放手交给大模型去做的重要原因。

大模型为什么会出现幻觉?

过时的知识、混入错误信息、以及缺乏特定领域的专业知识,都是导致大模型幻觉的“元凶”。

为了从源头化解这一问题,人们提出了一种名叫检索增强生成 (RAG)的技术。RAG就像是为大模型开了一个“外挂”,能够联通互联网实时信息、以及特定领域的专业知识。这一技术不仅提高了大模型的准确性和可靠性,还使其能够更好地理解上下文,并将检索到的知识融入到生成过程中,从而生成更加贴合实际需求的文本。

但RAG也并非完美无缺。互联网上的信息五花八门,存在着大量的干扰内容,甚至假新闻,这给准确检索所需知识带来了挑战。为了评估大模型利用RAG的有效性,有第三方测评机构提出了检索增强生成基准(Retrieval-Augmented Generation Benchmark)——RGB。RGB总结出不同大模型在RAG所需的4种基本能力,包括噪声鲁棒性、负抑制、信息集成和反事实鲁棒性,并根据这四种能力划分为4个独立的测试台。基于RGB,技术团队对6个包括百融云创大模型、ChatGPT3.5在内的大模型进行了评测。

在测试中一共设置了600个问题,其中300个IDK(没有正确答案的问题),300个非IDK问题(有正确答案的问题),百融云创大模型在回答非IDK问题时准确率达到67.7%左右,回答IDK问题时的准确率达到33.3%,整体准确率达到50.5%,略高于ChatGPT3.5的50.3%。

大幅减缓幻觉 百融云创大模型精度测评结果出炉

孔子曰,知之为知之,不知为不知,是知也,一个“聪明”的大模型也要有这种精神。当前,很多大模型面对自己不知道的事情,偏要强行给出错误答案。要想减少幻觉,保证精准性,大模型要对于没有准确答案的问题说“不知道”,对于有明确答案的问题,要能准确识别。

在这方面,百融云创大模型表现良好。

比如说,在测试环节,有个问答题中给出了大量的文本资料,但文本内容中并未放入准确的答案。百融云创大模型在检索和学习这个文本后,直接给出了“不知道”的回答,而非选择满嘴跑火车式的硬答。

而另外一个问答题,它在五个答案中混入四个错误答案,百融云创大模型能精准找到那个唯一的正确答案并生成回答。值得一提是,在生成回答的同时,百融云创大模型还会自动显示索引来源,信息的源头,让用户清楚知道这个信息来自于哪里,这将大大增加用户对大模型的信任感。

对于精准度的极致追求,源自于百融云创的业务特点。百融云创深入产业服务,深知在场景应用层面,尤其在金融、保险乃至医疗健康领域,对于模型精准度的要求有多高,对于错误的容忍度有多低。百融云创大模型从产业中来,到产业中去,结合行业know-how的沉淀,模型持续迭代来不断提升服务的精准度。这也是百融云创为客户创收,为终端业务KPI负责的技术底气。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-28 17:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...品|搜狐科技作者|张雅婷随着DeepSeek的爆火,公众对AI幻觉的担忧也日益加剧。比如,不少人通过DeepSeek辅助就医
2025-03-05 15:54:00
“80后死亡率高”疑似是AI造谣,AI已经开始胡说八道了
...让人心颤。在AI业界,这类“胡说八道”的本领被称为“幻觉(hallucination)”,意思是,AI也像人产生心理幻觉一样,在遇到自己不熟悉、不在知识范围的问题时,编造难以
2025-03-11 05:56:00
“80后死亡率超5%”,别上假数据的当
...歌董事长王磊告诉《新周刊》:“我猜测这可能与模型的精度有关。” 有专家认为,AI软件在增强创意和想象力的同时,不可避免地增加了产生幻觉的副作用。 (图/《人工智能》) 王磊
2025-04-02 21:37:00
深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」
...究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉」的原因,发现模型输出的准确性高度依赖于训练数据的质量和数量。研究结果指出,大模型在处理有广泛共识的问题时表现较好,但在
2024-10-26 09:51:00
人工智能的“胡言乱语”,有没有解法?
...I的强大功能,并由此感叹其是否可能取代人类劳动时,AI幻觉问题也越来越不容忽视,成为AI进一步发展的阻碍。 Yann LeCun——世界深度学习三巨头之一,“卷积神经网之络
2023-08-31 10:10:00
华网·两会科技聚焦|360集团周鸿祎:以“安全即服务”破解网络安全行业困局,柔性监管激活AI创造力
...构设计、蛋白质折叠预测等创新研究;在医疗、金融等高精度场景中,则可通过检索增强生成(RAG)技术实时修正错误。因此,他呼吁借鉴互联网时代的“避风港原则”,对大模型“幻觉”实施
2025-03-05 13:49:00
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
【新智元导读】大模型幻觉,究竟是怎么来的?谷歌、苹果等机构研究人员发现,大模型知道的远比表现的要多。它们能够在内部编码正确答案,却依旧输出了错误内容。到现在为止,我们仍旧对大模型
2024-11-11 13:32:00
ChatGPT张口就来的“病”应该怎么“治”?
...章,让 ChatGPT 如此「自信胡扯」的原因,是 AI 产生了「幻觉」。那么,是什么让 AI 大语言模型产生了「幻觉」
2023-04-14 18:04:00
大模型用于招采评审,这样解决“AI幻觉”问题!
...采购知识图谱,能够避免通用大模型在垂直领域应用的“幻觉”问题;再基于OCR+NLP技术解析投标文件中的资质证书、财务报表等,与招标清单的单价、数量偏差,进行比对,分钟级完成数
2025-04-24 16:45:00
更多关于科技的资讯:
12月,王力宏成都演唱会上,六台银色机器人伴随音乐节拍整齐划一地挥臂、踢腿、转身,然后在歌曲高潮段落完成一组高难度空翻
2025-12-31 08:08:00
今年以来,邮储银行济南市分行紧紧围绕小微企业和实体经济发展需求,以金融服务精准赋能区域市场主体,通过“产品攻坚+服务深耕”双轮驱动模式
2025-12-31 08:20:00
好哒与尚米店双强联动 数字化服务赋能实体经营新发展
2025年12月17日,深耕商户服务的标杆平台好哒与专注零售餐饮数字化领域的尚米店军师正式达成深度战略合作。此次双方强强联合
2025-12-31 08:22:00
2025 中国科技创新观察:引领全球、赋能产业、普惠民生
即将结束的2025年,无疑是“中国创造”引爆全球的里程碑。伴舞机器人的爆火并不是孤例。这一年,中国的科技创新不再局限于“卡脖子” 技术的单点突破
2025-12-31 08:26:00
浙江日报杭州12月30日讯 (记者 谢丹颖) 记者30日从天目山实验室获悉,实验室研制的600公斤级智能重载无人直升机日前首飞成功
2025-12-31 09:09:00
河南“智”造,“味”你而来丨了不起的河南智造②
【编者按】当厚重中原遇上智慧创新,会擦出怎样的火花?黄河之畔,钢铁与芯片共舞,机械臂与大数据齐鸣,一场“智造交响曲 ”正在上演
2025-12-31 09:14:00
鲁网12月31日讯近日,崂山区召开“产业链上的崂山好品牌”系列现场媒体见面会——智能家电产业链专场,记者从会上了解到,崂山区围绕智能服务型家电与可穿戴智能设备两大赛道
2025-12-31 10:49:00
在鲁西平原的坐标系里,一场关于发展的青春演算正在进行。当“00后”创业者用代码重构传统工厂,当返乡青年用直播间刷新农产品产值
2025-12-31 09:34:00
近期,工业和信息化部成立人形机器人与具身智能标准化技术委员会(下称“标委会”)。标委会的成立是发挥标准引领作用,加强高质量标准供给
2025-12-31 10:15:00
为建设“人工智能第一城”注入新动能杭州日报讯 杭州正加快构建场景驱动的AI产业基金,为人工智能产业发展注入全新动力。近日
2025-12-31 07:07:00
单个项目最高补助5000万元每日商报讯 用“意念”操控机械臂帮助瘫痪患者重获行动能力,以人脑为蓝本打造超低功耗芯片处理复杂任务……这些曾只存在于科幻作品中的场景
2025-12-31 07:37:00
日复一日,年复一年,新年的脚步已悄然叩响门环,无论你我是否整理好行囊。这一年的时光,有多少已从指缝间不经意溜走——被闹钟唤醒的清晨
2025-12-31 07:38:00
“现代化城市雄安探路”系列报道(五):数字孪生 创新之城
数字孪生 创新之城——“现代化城市雄安探路”系列报道⑤日前拍摄的雄安城市计算中心。它是雄安数字城市建设的核心枢纽。 河北日报记者 刘光昱摄建筑通过数字建模
2025-12-31 07:42:00
■王鑫摘要:在数字化转型的背景下,企业财务管理正面临由传统核算型向智能决策型的系统性变革。本文从数字化发展的实际需求出发
2025-12-31 04:48:00
1元租机器人,线下开首店:人形机器人打响大众化“发令枪”
大皖新闻讯 2025年的最后两天,中国的人形机器人产业以两件标志性事件,为即将到来的2026年按下了商业化加速键。一边是擎天租以“1元闪租”的体验价格将可以“打太极”的人形机器人推向大众市场
2025-12-30 21:48:00