• 我的订阅
  • 科技

大幅减缓幻觉 百融云创大模型精度测评结果出炉

类别:科技 发布时间:2024-03-28 16:16:00 来源:消费日报网

近日,百融云创大模型参加一场“考试”,并取得了行业领先的成绩,多项指标优于ChatGPT3.5。

随着各类大模型的相继问世,如何去评估大模型的性能变得越来越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,这是对大模型处理“幻觉问题”的能力测评,也是对大模型生成内容准确性的测评。

尽管大模型带来令人兴奋的技术进步,但“幻觉”一直是制约其发展的主要挑战之一。大模型出现幻觉,轻则“画虎类犬”,重则“胡说八道”。即便是强大如Sora,它生成的视频中也有“翻车”的场面。比如那个经典的女郎漫步视频,如果仔细观察会发现,女郎走路的过程中出现了腿部变形、左右腿交叉错乱,甚至还有右腿连续两次前进的情况。

如果只是作为娱乐性的观赏,对这些“幻觉”我们尚能一笑了之。但当大模型用做产业落地,“幻觉”就是大问题。试想一下,用大模型去写一份严谨的财务报表,一个小数点的错误都是一场灾难。这也是在核心领域,人们还不敢完全放手交给大模型去做的重要原因。

大模型为什么会出现幻觉?

过时的知识、混入错误信息、以及缺乏特定领域的专业知识,都是导致大模型幻觉的“元凶”。

为了从源头化解这一问题,人们提出了一种名叫检索增强生成 (RAG)的技术。RAG就像是为大模型开了一个“外挂”,能够联通互联网实时信息、以及特定领域的专业知识。这一技术不仅提高了大模型的准确性和可靠性,还使其能够更好地理解上下文,并将检索到的知识融入到生成过程中,从而生成更加贴合实际需求的文本。

但RAG也并非完美无缺。互联网上的信息五花八门,存在着大量的干扰内容,甚至假新闻,这给准确检索所需知识带来了挑战。为了评估大模型利用RAG的有效性,有第三方测评机构提出了检索增强生成基准(Retrieval-Augmented Generation Benchmark)——RGB。RGB总结出不同大模型在RAG所需的4种基本能力,包括噪声鲁棒性、负抑制、信息集成和反事实鲁棒性,并根据这四种能力划分为4个独立的测试台。基于RGB,技术团队对6个包括百融云创大模型、ChatGPT3.5在内的大模型进行了评测。

在测试中一共设置了600个问题,其中300个IDK(没有正确答案的问题),300个非IDK问题(有正确答案的问题),百融云创大模型在回答非IDK问题时准确率达到67.7%左右,回答IDK问题时的准确率达到33.3%,整体准确率达到50.5%,略高于ChatGPT3.5的50.3%。

大幅减缓幻觉 百融云创大模型精度测评结果出炉

孔子曰,知之为知之,不知为不知,是知也,一个“聪明”的大模型也要有这种精神。当前,很多大模型面对自己不知道的事情,偏要强行给出错误答案。要想减少幻觉,保证精准性,大模型要对于没有准确答案的问题说“不知道”,对于有明确答案的问题,要能准确识别。

在这方面,百融云创大模型表现良好。

比如说,在测试环节,有个问答题中给出了大量的文本资料,但文本内容中并未放入准确的答案。百融云创大模型在检索和学习这个文本后,直接给出了“不知道”的回答,而非选择满嘴跑火车式的硬答。

而另外一个问答题,它在五个答案中混入四个错误答案,百融云创大模型能精准找到那个唯一的正确答案并生成回答。值得一提是,在生成回答的同时,百融云创大模型还会自动显示索引来源,信息的源头,让用户清楚知道这个信息来自于哪里,这将大大增加用户对大模型的信任感。

对于精准度的极致追求,源自于百融云创的业务特点。百融云创深入产业服务,深知在场景应用层面,尤其在金融、保险乃至医疗健康领域,对于模型精准度的要求有多高,对于错误的容忍度有多低。百融云创大模型从产业中来,到产业中去,结合行业know-how的沉淀,模型持续迭代来不断提升服务的精准度。这也是百融云创为客户创收,为终端业务KPI负责的技术底气。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-28 17:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...品|搜狐科技作者|张雅婷随着DeepSeek的爆火,公众对AI幻觉的担忧也日益加剧。比如,不少人通过DeepSeek辅助就医
2025-03-05 15:54:00
“80后死亡率高”疑似是AI造谣,AI已经开始胡说八道了
...让人心颤。在AI业界,这类“胡说八道”的本领被称为“幻觉(hallucination)”,意思是,AI也像人产生心理幻觉一样,在遇到自己不熟悉、不在知识范围的问题时,编造难以
2025-03-11 05:56:00
“80后死亡率超5%”,别上假数据的当
...歌董事长王磊告诉《新周刊》:“我猜测这可能与模型的精度有关。” 有专家认为,AI软件在增强创意和想象力的同时,不可避免地增加了产生幻觉的副作用。 (图/《人工智能》) 王磊
2025-04-02 21:37:00
深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」
...究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉」的原因,发现模型输出的准确性高度依赖于训练数据的质量和数量。研究结果指出,大模型在处理有广泛共识的问题时表现较好,但在
2024-10-26 09:51:00
人工智能的“胡言乱语”,有没有解法?
...I的强大功能,并由此感叹其是否可能取代人类劳动时,AI幻觉问题也越来越不容忽视,成为AI进一步发展的阻碍。 Yann LeCun——世界深度学习三巨头之一,“卷积神经网之络
2023-08-31 10:10:00
华网·两会科技聚焦|360集团周鸿祎:以“安全即服务”破解网络安全行业困局,柔性监管激活AI创造力
...构设计、蛋白质折叠预测等创新研究;在医疗、金融等高精度场景中,则可通过检索增强生成(RAG)技术实时修正错误。因此,他呼吁借鉴互联网时代的“避风港原则”,对大模型“幻觉”实施
2025-03-05 13:49:00
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
【新智元导读】大模型幻觉,究竟是怎么来的?谷歌、苹果等机构研究人员发现,大模型知道的远比表现的要多。它们能够在内部编码正确答案,却依旧输出了错误内容。到现在为止,我们仍旧对大模型
2024-11-11 13:32:00
ChatGPT张口就来的“病”应该怎么“治”?
...章,让 ChatGPT 如此「自信胡扯」的原因,是 AI 产生了「幻觉」。那么,是什么让 AI 大语言模型产生了「幻觉」
2023-04-14 18:04:00
大模型用于招采评审,这样解决“AI幻觉”问题!
...采购知识图谱,能够避免通用大模型在垂直领域应用的“幻觉”问题;再基于OCR+NLP技术解析投标文件中的资质证书、财务报表等,与招标清单的单价、数量偏差,进行比对,分钟级完成数
2025-04-24 16:45:00
更多关于科技的资讯:
从管理执行转向双向赋能每日商报讯 近日,“人机共生·智启未来”2025中国年度最佳雇主长三角颁奖活动在上海虹桥国际中央商务区举行
2026-01-21 07:28:00
量质齐升 破局前行每日商报讯 杭州海关最新统计数据显示,2025年浙江省进出口总值达5.55万亿元,同比增长5.4%,高出全国1
2026-01-21 07:28:00
曹一琳摘要:当前,市场经济深化发展,人力资源管理效率成为影响国有企业核心竞争力的关键因素。研究表明,高效的人力资源管理能够助力国有企业优化人才结构
2026-01-21 06:55:00
用AI技术为青少年心理“把脉”!这一项目成功入围2026年度河南省科技攻关项目
大河网讯 近日,河南省科学技术厅公示 2026年度河南省科技攻关拟立项项目,由科创联达(河南)科技有限公司与中原工学院联合申报的“多模态融合与大语言模型驱动的青少年心理健康智能监测研究”项目入选
2026-01-20 22:45:00
张宣科技:科技驱动打造绿色低碳新能源标杆
图为张宣科技技术骨干正在对水系统设备进行全面巡视检查。于飞摄河北新闻网讯(王杨、马薇)打造全球领先的绿氢绿能耦合冶金示范
2026-01-20 17:17:00
聚焦临沂两会」临沂市政协委员许金龙:以科技创新引领标志性产业链高质量发展
鲁网1月20日讯“抢抓人工智能战略风口,以科技创新为核心引擎赋能产业升级,推动我市标志性产业链向高端化、智能化、绿色化方向提质进阶
2026-01-20 17:23:00
中国消费者报北京讯(记者裴莹)1月19日,荣耀与泡泡玛特合作推出的“荣耀500 Pro MOLLY 20周年限定版”手机正式发布
2026-01-20 17:30:00
中国消费者报北京讯(记者孙蔚)近日,转转集团发布《2025二手消费年度洞察》(以下简称报告)。报告显示,05后成为二手消费新生力量
2026-01-20 17:30:00
中国消费者报北京讯(记者桑雪骐)1月19日,海信召开2026 RGB-Mini LED影游旗舰E8S新品发布会,正式推出影游旗舰E8S系列电视
2026-01-20 17:30:00
春节将至 在中国空间站怎么吃年夜饭?
中国消费者报报道(记者桑雪骐)航天员的手指轻轻按下一个特制设备的启动键,28分钟后,伴随着设备上的按键灯闪烁,取出的不是常见的复热食品袋
2026-01-20 18:00:00
大皖新闻讯 1月20日,记者从阜阳市商业局获悉,为全力推动“超级皖”美食争霸赛半决赛活动氛围,该市将发放60万元消费券
2026-01-20 18:14:00
宜兴市徐舍镇:厚植沃土育“小巨人”
近年来,徐舍镇持续优化营商环境,强化政策引导与服务保障,积极构建富有活力的产业生态,通过搭建产学研对接桥梁,推动技术、人才
2026-01-20 18:52:00
空降社渚!KFC&必胜客“双子星”来了,常州首家
社渚喜讯!常州首对餐饮“双子星”——肯德基与必胜客,即将同步落户社渚!二月初,开业倒计时正式启动,快乐进入双倍时代。从此小镇生活添了新滋味
2026-01-20 18:54:00
中新经纬1月20日电 19日,小红书正式上线《社区公约2.0》,在延续“真诚分享,友好互动”社区价值观的基础上,明确提出“反对制造对立”的倡导
2026-01-20 19:14:00