• 我的订阅
  • 科技

大幅减缓幻觉 百融云创大模型精度测评结果出炉

类别:科技 发布时间:2024-03-28 16:16:00 来源:消费日报网

近日,百融云创大模型参加一场“考试”,并取得了行业领先的成绩,多项指标优于ChatGPT3.5。

随着各类大模型的相继问世,如何去评估大模型的性能变得越来越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,这是对大模型处理“幻觉问题”的能力测评,也是对大模型生成内容准确性的测评。

尽管大模型带来令人兴奋的技术进步,但“幻觉”一直是制约其发展的主要挑战之一。大模型出现幻觉,轻则“画虎类犬”,重则“胡说八道”。即便是强大如Sora,它生成的视频中也有“翻车”的场面。比如那个经典的女郎漫步视频,如果仔细观察会发现,女郎走路的过程中出现了腿部变形、左右腿交叉错乱,甚至还有右腿连续两次前进的情况。

如果只是作为娱乐性的观赏,对这些“幻觉”我们尚能一笑了之。但当大模型用做产业落地,“幻觉”就是大问题。试想一下,用大模型去写一份严谨的财务报表,一个小数点的错误都是一场灾难。这也是在核心领域,人们还不敢完全放手交给大模型去做的重要原因。

大模型为什么会出现幻觉?

过时的知识、混入错误信息、以及缺乏特定领域的专业知识,都是导致大模型幻觉的“元凶”。

为了从源头化解这一问题,人们提出了一种名叫检索增强生成 (RAG)的技术。RAG就像是为大模型开了一个“外挂”,能够联通互联网实时信息、以及特定领域的专业知识。这一技术不仅提高了大模型的准确性和可靠性,还使其能够更好地理解上下文,并将检索到的知识融入到生成过程中,从而生成更加贴合实际需求的文本。

但RAG也并非完美无缺。互联网上的信息五花八门,存在着大量的干扰内容,甚至假新闻,这给准确检索所需知识带来了挑战。为了评估大模型利用RAG的有效性,有第三方测评机构提出了检索增强生成基准(Retrieval-Augmented Generation Benchmark)——RGB。RGB总结出不同大模型在RAG所需的4种基本能力,包括噪声鲁棒性、负抑制、信息集成和反事实鲁棒性,并根据这四种能力划分为4个独立的测试台。基于RGB,技术团队对6个包括百融云创大模型、ChatGPT3.5在内的大模型进行了评测。

在测试中一共设置了600个问题,其中300个IDK(没有正确答案的问题),300个非IDK问题(有正确答案的问题),百融云创大模型在回答非IDK问题时准确率达到67.7%左右,回答IDK问题时的准确率达到33.3%,整体准确率达到50.5%,略高于ChatGPT3.5的50.3%。

大幅减缓幻觉 百融云创大模型精度测评结果出炉

孔子曰,知之为知之,不知为不知,是知也,一个“聪明”的大模型也要有这种精神。当前,很多大模型面对自己不知道的事情,偏要强行给出错误答案。要想减少幻觉,保证精准性,大模型要对于没有准确答案的问题说“不知道”,对于有明确答案的问题,要能准确识别。

在这方面,百融云创大模型表现良好。

比如说,在测试环节,有个问答题中给出了大量的文本资料,但文本内容中并未放入准确的答案。百融云创大模型在检索和学习这个文本后,直接给出了“不知道”的回答,而非选择满嘴跑火车式的硬答。

而另外一个问答题,它在五个答案中混入四个错误答案,百融云创大模型能精准找到那个唯一的正确答案并生成回答。值得一提是,在生成回答的同时,百融云创大模型还会自动显示索引来源,信息的源头,让用户清楚知道这个信息来自于哪里,这将大大增加用户对大模型的信任感。

对于精准度的极致追求,源自于百融云创的业务特点。百融云创深入产业服务,深知在场景应用层面,尤其在金融、保险乃至医疗健康领域,对于模型精准度的要求有多高,对于错误的容忍度有多低。百融云创大模型从产业中来,到产业中去,结合行业know-how的沉淀,模型持续迭代来不断提升服务的精准度。这也是百融云创为客户创收,为终端业务KPI负责的技术底气。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-28 17:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...品|搜狐科技作者|张雅婷随着DeepSeek的爆火,公众对AI幻觉的担忧也日益加剧。比如,不少人通过DeepSeek辅助就医
2025-03-05 15:54:00
“80后死亡率高”疑似是AI造谣,AI已经开始胡说八道了
...让人心颤。在AI业界,这类“胡说八道”的本领被称为“幻觉(hallucination)”,意思是,AI也像人产生心理幻觉一样,在遇到自己不熟悉、不在知识范围的问题时,编造难以
2025-03-11 05:56:00
“80后死亡率超5%”,别上假数据的当
...歌董事长王磊告诉《新周刊》:“我猜测这可能与模型的精度有关。” 有专家认为,AI软件在增强创意和想象力的同时,不可避免地增加了产生幻觉的副作用。 (图/《人工智能》) 王磊
2025-04-02 21:37:00
深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」
...究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉」的原因,发现模型输出的准确性高度依赖于训练数据的质量和数量。研究结果指出,大模型在处理有广泛共识的问题时表现较好,但在
2024-10-26 09:51:00
人工智能的“胡言乱语”,有没有解法?
...I的强大功能,并由此感叹其是否可能取代人类劳动时,AI幻觉问题也越来越不容忽视,成为AI进一步发展的阻碍。 Yann LeCun——世界深度学习三巨头之一,“卷积神经网之络
2023-08-31 10:10:00
华网·两会科技聚焦|360集团周鸿祎:以“安全即服务”破解网络安全行业困局,柔性监管激活AI创造力
...构设计、蛋白质折叠预测等创新研究;在医疗、金融等高精度场景中,则可通过检索增强生成(RAG)技术实时修正错误。因此,他呼吁借鉴互联网时代的“避风港原则”,对大模型“幻觉”实施
2025-03-05 13:49:00
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
【新智元导读】大模型幻觉,究竟是怎么来的?谷歌、苹果等机构研究人员发现,大模型知道的远比表现的要多。它们能够在内部编码正确答案,却依旧输出了错误内容。到现在为止,我们仍旧对大模型
2024-11-11 13:32:00
ChatGPT张口就来的“病”应该怎么“治”?
...章,让 ChatGPT 如此「自信胡扯」的原因,是 AI 产生了「幻觉」。那么,是什么让 AI 大语言模型产生了「幻觉」
2023-04-14 18:04:00
大模型用于招采评审,这样解决“AI幻觉”问题!
...采购知识图谱,能够避免通用大模型在垂直领域应用的“幻觉”问题;再基于OCR+NLP技术解析投标文件中的资质证书、财务报表等,与招标清单的单价、数量偏差,进行比对,分钟级完成数
2025-04-24 16:45:00
更多关于科技的资讯:
2025年,安徽太和县烟草专卖局(营销部)紧扣行业高质量发展要求,以“强基固本、提质增效”为主线,深化终端现代化转型,在数字化赋能
2026-02-11 14:18:00
从技术到情感,2026值得入手的定制珠宝品牌,一文读懂不踩坑
一、定制珠宝为何成为新消费时代的“刚需”?过去几年,全球珠宝产业正经历一场由内而外的结构性重塑。根据《2026全球珠宝行业白皮书》披露的数据
2026-02-11 14:20:00
从稀缺神话到情感载体:纪派珠宝以科技与东方美学重塑钻石新价值
当钻石遇见东方智慧,情感与科技共舞的时代序章在消费升级与情感表达需求日益凸显的今天,珠宝早已超越其物质属性,成为承载记忆
2026-02-11 14:21:00
东航、迪士尼都来了!40多个旅行品牌推出“千问价”
“史上最长春节假期”即将开启,2月11日,千问APP联合飞猪宣布,与全球40多家旅行品牌达成AI合作,为通过千问购买飞猪机酒门票的用户提供专属优惠“千问价”
2026-02-11 15:18:00
随着消费市场不断升级,消费者对食品的需求更趋理性与本真。简爱酸奶以简化配方为切入点,依托持续的技术与产品创新,保持产品原生风味与基础营养
2026-02-11 11:20:00
舒朗秋部分商家以“一口价”销售为由,弱化甚至刻意隐瞒商品克重、计价方式等关键信息;一些网络商家销售的黄金饰品存在材质不符
2026-02-11 11:20:00
新春将至,年味渐浓。走亲访友、出游观演、看展逛会,构成了节日流动的中国图景。今年,全国多地纷纷解锁票根联动新玩法,将各类票根转化为消费福利凭证
2026-02-11 13:44:00
从行业领军到“钓鱼第一股” 乐欣户外香港联合交易所主板成功上市
2月10日,全球最大钓鱼装备制造商乐欣户外(2720.HK)正式登陆港交所主板,成为港股“钓鱼装备第一股”。上市首日,公司开盘报24
2026-02-11 11:14:00
厦门网讯(厦门日报记者 沈彦彦)春节即将到来,我市开启“有奖发票”活动。2026年2月10日起,参与活动的消费者,最高可以获800元幸运奖金
2026-02-11 08:53:00
厦门:微米级工艺助力高端制造产业补链强链
厦门网讯(厦门日报记者 林岑)6日,鹭岛暖意融融,最高气温攀升至25℃。在位于海沧区的达昊精密零部件智慧工厂项目工地,建设热潮与春日气温同频升腾
2026-02-11 08:53:00
走企 | 艾拓自动化:为全球船舶装上“智能护航系统”
“产业炬光灯”系列短视频聚焦艾拓自动化,解锁从“零产品应用”到“行业引领”的成长密码。扫码看视频厦门网讯(厦门日报记者 李晓平)在茫茫大海上
2026-02-11 08:53:00
近期AI眼镜概念受事件催化:一是雷鸟创新携AI+AR眼镜亮相米兰冬奥会,获国际认可;二是国家以旧换新补贴政策首次将智能眼镜纳入补贴目录
2026-02-11 09:53:00
世界首台第六代COFE+机器人咖啡馆亮相2026人大会议,一杯“聪明咖啡”展示科技硬核
上海世博中心,2026年2月3日电 上午9时,上海市第十六届人民代表大会第四次会议在上海世博中心隆重开幕。在庄严的会场内外
2026-02-11 10:28:00
产学研协同攻坚 科研成果走向“生产线”每日商报讯 假期临近,浙江理工大学的纺织实验室仪器却低鸣不断,发出“滋滋”的运转声
2026-02-11 07:19:00
近日,字节跳动推出的AI视频生成模型Seedance2.0在海内外互联网上再度刷屏。据官方介绍,该模型能够根据文本或图像生成电影级视频
2026-02-10 23:41:00