• 我的订阅
  • 科技

对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?

类别:科技 发布时间:2025-03-05 15:54:00 来源:搜狐科技

对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?

北京大学王选计算机研究所研究员、博士生导师 赵东岩

出品|搜狐科技

作者|张雅婷

随着DeepSeek的爆火,公众对AI幻觉的担忧也日益加剧。

比如,不少人通过DeepSeek辅助就医、撰写论文时发现,DeepSeek会“一本正经地胡说八道”,把一些专有名词“张冠李戴”,用户难以发现DeepSeek的“幻觉陷阱”。

来自Vectara机器学习团队的幻觉测试显示,DeepSeek-R1的幻觉率高达14.3%,显著高于DeepSeek-V3的3.9%,也远远超过行业的其他推理模型,比如OpenAI-o1的测试结果是2.4%。

对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?

这种AI大模型生成内容与真实数据不符,或偏离用户指令的现象,会极大影响用户的使用体验。在医疗、法律、金融等对准确性要求高的领域,AI幻觉则会为企业带来严重后果。

DeepSeek-R1幻觉率为何高于行业其它推理模型?AI幻觉为何难以完全被消除?减少大模型幻觉的技术手段都有哪些?最近,搜狐科技与北京大学王选计算机研究所研究员、博士生导师赵东岩进行了深入交流。

赵东岩告诉搜狐科技,Vectara公司设计的是"忠实性幻觉"评估,检测生成摘要与原始文本的语义一致性,该测试主要测试模型摘要能力和指令遵循能力。

他表示,DeepSeek-R1这种推理模型,是通过生成中间推理步骤来增强问题解决能力,目标是解决复杂的推理任务。之所以在幻觉率方面的表现不好,可能是模型对齐做得不够。“我们在研究和使用过程中,R1复杂问题推理能力强大,往往比o3-mini好,但是有时instruction following的能力没有o3-mini好。”

赵东岩强调,DeepSeek等大模型的幻觉来自于本身的技术架构和基于统计的机器学习范式,是大模型的内生性缺陷。因此,可以说大模型的创造力与幻觉是相伴相生的。

他认为,要从根本上减少大模型幻觉,可以从让大模型学习运用已有知识来实现受限推理,向可控生成的方向进行突破。

以下为对话实录:

搜狐科技:来自Vectara机器学习团队的幻觉测试显示,DeepSeek-R1的幻觉率高达14.3%,显著高于V3的3.9%,也超过行业平均水平,这个背后可能有哪些原因呢?

赵东岩:根据相关信息,Vectara公司设计的是"忠实性幻觉"评估,检测生成摘要与原始文本的语义一致性或者看短文回答问题,该测试主要测试模型摘要能力和指令遵循能力。

推理模型,如 DeepSeek-R1 和 OpenAI 的 o3-mini,是通过生成中间推理步骤来增强问题解决能力,称为“长思维链”推理。这种方法目标是解决复杂的推理任务。

摘要任务是一个相对“简单”的任务,和推理能力并不对齐。R1在这个任务的幻觉大,我们推测主要是对齐这方面做得不够。我们在研究和使用过程中,R1复杂问题推理能力强大,往往比o3-mini好,但是有时instruction following的能力没有o3-mini好。

推理模型的“幻觉”整体比基座模型的“幻觉”大,一个原因可能是给定文本和模型自有知识的冲突。模型自己能力强,可能不按给定上下文去回答。现实中,说服一个聪明人更难些。

搜狐科技:在用户使用时发现,DeepSeek会编造专业文件,并且因为逻辑表达更好,幻觉很难识别出来,您觉得用户在使用时应该注意什么,来避免被大模型的幻觉“欺骗”?

赵东岩:这个只能多渠道验证信息来源。也可以使用多种语言询问,然后交叉验证。

搜狐科技:不少用户发现,DeepSeek在写作中展示出了惊人的创造力,大模型的创造力是不是一定会带来幻觉?大模型能做到既有创造力,又少幻觉吗?

赵东岩:简单来说,DeepSeek等大模型的幻觉来自于本身的技术架构和基于统计的机器学习范式,是大模型的内生性缺陷。因此,可以说大模型的创造力与幻觉是相伴相生的。

搜狐科技:大模型能做到既有创造力,又少幻觉吗?

赵东岩:对于事实性幻觉,如回答某事实性问题出错,这个得看问题的复杂程度。有部分原因是模型输出的随机性导致的(也是模型有创造力的源泉),这方面随着模型能力的增强,幻觉也会越来越小,但很难完全避免。

对于忠实性幻觉,如给定文本做摘要,这个要增强模型的指令遵循能力,有极大可能的缓解、甚至有条件消除(如可控生成)。这个过程并不会影响模型的创造力。一般来说,参数规模越大、模型能力越强,消除忠实性幻觉的机会就越大。

搜狐科技:随着大模型性能的发展,大模型幻觉的发展趋势是什么样的?

赵东岩:从海量数据的统计学习角度看,对同一个问题,有可能本身就有多种解答,或者共识不同(人类也没有在所有问题上达成共识),这些现象也会反映到模型的输出上。总体来看,模型性能越强,幻觉整体还是在减少,回答问题能力增强,也会生成更符合价值观的回答。

搜狐科技:大模型的幻觉问题,是否会导致其在行业应用面临较大的挑战?比如对准确率要求比较高的教育、医疗、金融等行业?

赵东岩:是的,所以在这些关键领域,模型的对齐效果非常关键。实践中,可以通过多次校验,对齐,RAG来改善大模型的幻觉问题。

搜狐科技:从技术上来说,常用减少大模型幻觉的手段有哪些呢?能否详细聊聊?

赵东岩:在输入层面,可以通过检索增强生成(RAG)的方法,通过引入外部知识库,在生成过程中检索相关信息,确保生成内容的准确性和时效性。 

此外,可以将结构化的知识图谱集成到生成过程中,提供明确的事实支持,减少模型生成不准确或虚构信息的可能性。结合视觉和语言信息,增强模型对多种信息的校验,增强对事物理解的一致性,减少幻觉的发生。

在模型层面,可以精心设计输入提示,引导模型生成更符合预期的输出。如思维链引导模型逐步推理,减少幻觉的发生。在输出层面,可以通过投入更多的计算资源,输出多个结果,然后互相校验内容。

个人认为,要根本上缓解大模型幻觉,可以从如何让大模型学习运用已有知识来实现受限推理,向可控生成的方向实现突破。返回搜狐,查看更多

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-03-05 17:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

依托数据、平台、知识增强等优势 夸克大模型降低问答幻觉率
...性。在医疗健康领域,夸克大模型已经可以将问答内容的幻觉率降低至5%。夸克推进搜索革新,自研大模型打造技术新底座在互联网高速发展的30余年中,搜索曾经高效地满足了用户主动获取信
2023-11-23 11:11:00
清华大学教授李宗鹏:大模型消除不了幻觉,大语言模型注定没有希望
...财经的采访)作者|王迪百度李彦宏称大模型基本消除了幻觉,AI从一本正经胡说八道变得可被信赖。清华大学李宗鹏在接受凤凰网财经采访时则指出,大模型永远不会彻底摆脱幻觉和出错的问题
2024-11-20 22:02:00
把AI炼成销冠|一知智能发布全新一代大模型对话产品「太一语音对话Agent」
...从零起步构建完整技术路径的又一次里程碑式突破。近零幻觉,专为企业级场景而生在人工智能语音对话技术迅猛发展的今天,大模型语音对话Agent已成为众多企业提升客户服务、优化业务流
2025-07-14 16:35:00
Apple Intelligence提示词原来是这样,还告诉大模型:别幻觉
...人将选择这些问题的答案,这将有助于减少撰写回复时的幻觉。请输出最佳问题及每个问题的可能答案 / 选项。不要问回复片段中已经回答的问题。问题应简短,不超过 8 个字。答案也应简
2024-08-08 09:39:00
...火,向量数据库帮助大模型更新数据、构建知识库、消除幻觉的能力愈发被普及。这个之前一点也不拥挤的领域,短短几月内承载的关注度超出以往任何时刻。作为全球第一家开源向量数据库产品的
2023-08-04 11:57:00
深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」
...究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉」的原因,发现模型输出的准确性高度依赖于训练数据的质量和数量。研究结果指出,大模型在处理有广泛共识的问题时表现较好,但在
2024-10-26 09:51:00
网易数帆发布有数ChatBI,打造可信AIGC分析新范式
...,即使最先进的通用大模型也很容易捏造事实,俗称“AI幻觉”,在BI领域可能是捏造字段,这在环环相扣的数据分析中可能成为致命的缺陷。在过去的10个月中,网易数帆的重要事项之一,
2023-08-10 21:01:00
ChatGPT张口就来的“病”应该怎么“治”?
...章,让 ChatGPT 如此「自信胡扯」的原因,是 AI 产生了「幻觉」。那么,是什么让 AI 大语言模型产生了「幻觉」
2023-04-14 18:04:00
不同量级参数模型性能同样优秀 夸克大模型再登行业评测榜首
...性。在医疗健康领域,夸克大模型已经可以将问答内容的幻觉率降低至5%,处在行业领先水平。夸克推进搜索革新,自研大模型打造技术新底座在互联网高速发展的30余年中,搜索曾经高效地满
2023-11-24 13:53:00
更多关于科技的资讯:
“公交医生”用心守护 保障乘客畅行新春
随着新春的脚步日益临近,城市公交迎来了全年运营的高峰期。在保障车辆安全高效运转的链条上,车间维修团队是不可或缺的“技术核心”
2026-01-31 18:06:00
从赛事领奖台到春晚舞台,松延动力勾勒人形机器人产业新图景
1月29日,中央广播电视总台与松延动力联合宣布,松延动力成为总台《2026年春节联欢晚会》人形机器人合作伙伴。松延动力表示
2026-01-31 17:05:00
百度智能云:800多家金融机构的首选“AI搭子”
大模型在金融行业的落地节奏正在加快。1月31日消息,根据近期媒体对2025年公开市场大模型相关招投标信息的统计,金融行业全年大模型中标项目达587个
2026-01-31 17:05:00
高顿咨询财务进化论年度峰会暨AI白皮书重磅发布
高顿咨询财务进化论年度峰会暨AI白皮书发布会于2026年1月23日在上海隆重启幕。来自AI财务领域的学界专家、企业高管汇聚一堂
2026-01-31 17:06:00
导演王晶短剧公司落地河南 称今年要拍100部精品
大河网讯 近日,香港导演王晶现身郑州,为其担任总监制、总编剧的微短剧《澳城风云》主持开机仪式,标志其正式进军河南微短剧产业
2026-01-31 16:34:00
大润发东营首店亮相东城万达广场
鲁网1月31日讯2026年1月30日,大润发东营首店正式落户东营东城万达广场。该店践行“线上线下融合”的新零售战略,线上平台“大润发优鲜”已率先运营
2026-01-31 13:04:00
元梦空间2026马上元梦嘉年华大会即将在蓉举办,开启元宇宙“虚实共生”新纪元
2026年2月3日,一场以“马上元梦·数字新生”为主题的元宇宙行业盛典——元梦空间2026马上元梦嘉年华大会,将在四川成都隆重举行
2026-01-31 08:57:00
零基础学烘焙,2026年1月郑州靠谱的蛋糕培训机构有哪些?
想在郑州学做蛋糕,却不知道选哪家?是零基础想扎实学技能,还是打算创业需要全流程支持?随着烘焙赛道越来越火,郑州的蛋糕培训机构也层出不穷
2026-01-31 08:59:00
定制钻戒哪个好?2026年高性价比国产培育钻品牌深度推荐指南
在当代珠宝消费语境中,“定制钻戒”早已不再只是婚礼场景的专属符号,而逐渐演变为一种承载情感、表达个性与彰显审美的生活方式
2026-01-31 08:59:00
定制钻戒哪个好?2026培育钻戒选购终极攻略:这些高性价比品牌别错过!
在“悦己消费”与“情感表达”日益成为主流的今天,钻戒早已超越传统婚庆符号的单一身份,演变为一种融合科技、美学与个人叙事的现代生活方式
2026-01-31 09:01:00
简单解压易分享 我市涌现一批线下拼豆店
记者体验拼豆。拼豆店里,小朋友认真地将一粒粒塑料豆摆到豆板上。 厦门网讯 (文/图 厦门日报记者 柯笛)马年将至,小马造型和新年主题的拼豆图纸在网上走红
2026-01-31 09:16:00
东南网1月31日讯(福建日报记者 张文奎 通讯员 林文昊) 近日,记者从福州新区集团获悉,该集团投资企业恒美光电迎来重大技术突破
2026-01-31 10:34:00
行业无解的“-57密码”,他用国产元件成功“破解”
日前,一汽大众长春整车制造部总装二车间车身线的LJU控制器在运行过程中突然集中批量报出各种故障代码,其中的变频过流“-57”故障占比达到60%
2026-01-30 23:24:00
当国产航母劈波斩浪,北斗系统指引八方,医疗核心系统的自主可控之路同样刻不容缓。因为,看病靠医生,也靠信息保障,“健康钥匙”掌握在自己手里
2026-01-31 06:41:00