• 我的订阅
  • 科技

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

类别:科技 发布时间:2024-07-25 09:31:00 来源:机器之心Pro

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来,团队着眼于目前人工智能发展的瓶颈问题,探索原创性人工智能理论和关键技术,在智能算法的对抗安全理论和方法研究中处于国际领先水平,深入研究深度学习的对抗鲁棒性和数据利用效率等基础共性问题。相关工作获吴文俊人工智能自然科学一等奖,发表CCF A类论文100余篇,研制开源的ARES对抗攻防算法平台(https://github.com/thu-ml/ares),并实现部分专利产学研转化落地应用。

以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀起了一场技术革命。

然而,多模态大模型是否安全可靠呢?

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图1 对抗攻击GPT-4o示例

如图1所示,通过对抗攻击修改图像像素,GPT-4o将新加坡的鱼尾狮雕像,错误识别为巴黎的埃菲尔铁塔或是伦敦的大本钟。这样的错误目标内容可以随意定制,甚至超出模型应用的安全界限。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图2 Claude3越狱示例

而在越狱攻击场景下,虽然Claude成功拒绝了文本形式下的恶意请求,但当用户额外输入一张纯色无关图片时,模型按照用户要求输出了虚假新闻。这意味着多模态大模型相比大语言模型,有着更多的风险挑战。

除了这两个例子以外,多模态大模型还存在幻觉、偏见、隐私泄漏等各类安全威胁或社会风险,会严重影响它们在实际应用中的可靠性和可信性。这些漏洞问题到底是偶然发生,还是普遍存在?不同多模态大模型的可信性又有何区别,来源何处?

近日,来自清华、北航、上交和瑞莱智慧的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

论文标题:Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

论文链接:https://arxiv.org/pdf/2406.07057

项目主页:https://multi-trust.github.io/

代码仓库:https://github.com/thu-ml/MMTrustEval

MultiTrust基准框架

从已有的大模型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公平性(Fairness)、隐私保护(Privacy),并进行二级分类,有针对性地构建了任务、指标、数据集来提供全面的评估。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图4MultiTrust框架图

围绕10个可信评价子维度,MultiTrust构建了32个多样的任务场景,覆盖了判别和生成任务,跨越了纯文本任务和多模态任务。任务对应的数据集不仅基于公开的文本或图像数据集进行改造和适配,还通过人工收集或算法合成构造了部分更为复杂和具有挑战性的数据。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图5 MultiTrust任务列表

与大语言模型(LLMs)的可信评价不同,MLLM的多模态特征带来了更多样、更复杂的风险场景和可能。为了更好地进行系统性评估,MultiTrust基准不仅从传统的行为评价维度出发,更创新地引入了多模态风险和跨模态影响这两个评价视角,全面覆盖新模态带来的新问题新挑战。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图6 多模态风险和跨模态影响的风险示意

具体地,多模态风险指的是多模态场景中带来的新风险,例如模型在处理视觉误导信息时可能出现的错误回答,以及在涉及安全问题的多模态推理中出现误判。尽管模型可以正确识别图中的酒水,但在进一步的推理中,部分模型并不能意识到其与头孢药物共用的潜在风险。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图7 模型在涉及安全问题的推理中出现误判

跨模态影响则指新模态的加入对原有模态可信度的影响,例如无关图像的输入可能会改变大语言模型骨干网络在纯文本场景中的可信行为,导致更多不可预测的安全风险。在大语言模型可信性评估常用的越狱攻击和上下文隐私泄漏任务中,如果提供给模型一张与文本无关的图片,原本的安全行为就可能被破坏(如图2)。

结果分析和关键结论

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图8 实时更新的可信度榜单(部分)

研究人员维护了一个定期更新的多模态大模型可信度榜单,已经加入了GPT-4o、Claude3.5等最新的模型,整体来看,闭源商用模型相比主流开源模型更为安全可靠。其中,OpenAI的GPT-4和Anthropic的Claude的可信性排名最靠前,而加入安全对齐的Microsoft Phi-3则在开源模型中排名最高,但仍与闭源模型有一定的差距。

GPT-4、Claude、Gemini等商用模型针对安全可信已经做过许多加固技术,但仍然存在部分安全可信风险。例如,他们仍然对对抗攻击、多模态越狱攻击等展现出了脆弱性,极大地干扰了用户的使用体验和信任程度。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图9 Gemini在多模态越狱攻击下输出风险内容

尽管许多开源模型在主流通用榜单上的分数已经与GPT-4相当甚至更优,但在可信层面的测试中,这些模型还是展现出了不同方面的弱点和漏洞。例如在训练阶段对通用能力(如OCR)的重视,使得将越狱文本、敏感信息嵌入图像输入成为更具威胁的风险来源。

基于跨模态影响的实验结果,作者发现多模态训练和推理会削弱大语言模型的安全对齐机制。许多多模态大模型会采用对齐过的大语言模型作为骨干网络,并在多模态训练过程中进行微调。结果表明,这些模型依然展现出较大的安全漏洞和可信风险。同时,在多个纯文本的可信评估任务上,在推理时引入图像也会对模型的可信行为带去影响和干扰。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图10 引入图像后,模型更倾向于泄漏文本中的隐私内容

实验结果表明,多模态大模型的可信性与其通用能力存在一定的相关性,但在不同的可信评估维度上模型表现也依然存在差异。当前常见的多模态大模型相关算法,如GPT-4V辅助生成的微调数据集、针对幻觉的RLHF等,尚不足以全面增强模型的可信性。而现有的结论也表明,多模态大模型有着区别于大语言模型的独特挑战,需要创新高效的算法来进行进一步改进。

详细结果和分析参见论文。

未来方向

研究结果表明提升多模态大模型的可信度需要研究人员的特别注意。通过借鉴大语言模型对齐的方案,多元化的训练数据和场景,以及检索增强生成(RAG)和宪法AI(Constitutional AI)等范式可以一定程度上帮助改进。但多模态大模型的可信提升绝不止于此,模态间对齐、视觉编码器的鲁棒性等也是关键影响因素。此外,通过在动态环境中持续评估和优化,增强模型在实际应用中的表现,也是未来的重要方向。

伴随MultiTrust基准的发布,研究团队还公开了多模态大模型可信评价工具包MMTrustEval,其模型集成和评估模块化的特点为多模态大模型的可信度研究提供了重要工具。基于这一工作和工具包,团队组织了多模态大模型安全相关的数据和算法竞赛[1,2],推进大模型的可信研究。未来,随着技术的不断进步,多模态大模型将在更多领域展现其潜力,但其可信性的问题仍需持续关注和深入研究。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-25 12:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...分析决策需求,单模态数据有限的信息量导致单模态智能可信度存在瓶颈。为此,团队打破单模态数据思路,提出冲突多模态学习算法,并通过数据可信重建以及弱监督深度学习框架算法,实现了证
2024-05-20 03:22:00
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...求。那么,该如何确保大模型在应用落地过程中的安全和可信度呢?「大模型落地的最后一公里,需要一个系统化的方法论来保障大模型应用侧落地过程中的可信。」中国信息通信研究院人工智能研
2024-07-10 10:26:00
全球几十种大模型评测,如何甄别可信度?
图片来自视觉中国蓝鲸新闻12月20日讯(记者 武静静)要衡量一个大模型能力是否够强,评测是最直接的维度。大模型评测就是为大模型的一场“考试”,从不同大模型的表现中,不仅可以衡量现
2024-12-23 13:44:00
...划系统化的评测体系,希望借此支撑更全面地提升大模型可信度,其中,内容生成安全、数据安全、合乎伦理等都是重点关注的问题。这是我们目前看到的星星之火。以下是对话部分(经编辑):3
2023-07-10 09:54:00
旷视科技出席第六届世界人工智能大会(WAIC),共话AI创新
...;从治理角度看,挑战体现在大模型生成的内容如何具备可信度,如何避免产生偏见,如何避免技术被滥用。他强调说,面对新技术的来临,一定要边发展边治理。既要利用大模型产生更强生产力,
2024-03-12 16:36:00
...自:人民网人民网北京2月27日电 (记者赵竹青)记者从清华大学车辆与运载学院杨殿阁教授团队了解到,团队在自动驾驶研究中取得关键技术突破,发明了一种自动驾驶“可信持续进化”技术
2023-02-27 19:53:00
数据可大可小可随便调 这家甲醛检测可信度几何?
...检测条件,则其出具的检测数据属于无效数据,没有任何可信度。如果其以未达到国标要求的检测条件为由调整数据,则必须有已发表的论文作为支撑;或其通过实验、研究获得的成果数据,必须向
2023-12-14 07:33:00
首个多模态连续学习综述,港中文、清华、UIC联合发布
...址:https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning多模态连续学习的最新进展连续学习(CL)旨在增强机器学习模型的能力
2024-11-14 09:46:00
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...,前者在涉及需要深厚专业知识和数据分析的任务,以及可信度和透明度等方面,比后者更具优势。总的来看,Claude 3 的诞生是 AI 领域发展的一个重要进展,由它带来的潜在应用
2024-03-12 10:59:00
更多关于科技的资讯:
河北新闻网讯(孙明明、王育民)从曹妃甸综合保税区获悉,天猫国际“双十一”购物节于10月20日20时拉开帷幕,首日4个小时
2025-10-23 19:56:00
长春机场廊桥智能播报,打造“无缝”行李提取体验
近日,长春机场“行李转盘信息提示系统”科创项目在219号廊桥顺利投入使用。该系统融合智能语音播报与电子屏幕动态指引,实现了旅客从舱门到行李提取厅的“信息无缝衔接”
2025-10-23 19:24:00
PITAKA浮织工艺再升级,以浮织·光影波纹带来「浮光跃金」新品
、2025年9月,PITAKA发布了iPhone 17系列新品,也正式推出全新Moment系列新纹路——「浮光跃金」,分别有清梦蓝
2025-10-23 16:50:00
76年,于历史长河或为一瞬;于中国保险业,则是一从小到大、由弱及强、自稚嫩向成熟蜕变的壮阔史诗。76年,于一家险企而言
2025-10-23 17:01:00
能环宝NiOS™智慧能源管理系统:驱动光伏电站效益跃升与运维变革
在光伏产业迈向全面平价时代的关键节点,电站运营的精细化管理与经济效益最大化已成为行业共识。面对分布式光伏电站运维成本高
2025-10-23 15:29:00
三位核心人物的真诚分享,道尽燕教授 13 年健康深耕的温度与底气
10月20日19:30,燕教授《一“张”邀请函》第六季天津蓟州站在官方视频号如期开播,一场以“一“张”邀请函”为主题的深度访谈
2025-10-23 08:15:00
Soul App Q3生态安全报告:AI筑防线,共建安全可靠连接空间
随着移动互联网的普及与社交应用深度融入日常生活,社交平台已成为公众表达观点、建立连接的重要渠道。然而,随之而来的虚假信息传播
2025-10-23 08:15:00
厦门网讯(厦门日报记者 李晓平)近日,省工信厅公布第九批省级制造业单项冠军企业名单,15家厦企上榜,占全省31.2%。包括此次公布的名单
2025-10-23 08:43:00
深耕SUV越野赛道,山东新大陆跻身全球轮胎影响力品牌
齐鲁晚报·齐鲁壹点 高松山东新大陆橡胶科技有限公司成立于2012年,位于临沂市沂水县庐山工业园,是一家以研发、生产、销售高性能半钢子午胎为主的高新技术企业
2025-10-23 11:37:00
小米汽车SOS 1秒接通?高管辟谣:该内容完全失实
10月22日,小米汽车副总裁李肖爽发文:针对近期网传 “小米汽车SOS 1秒接通 不含排队时间”等相关内容,为了避免误传
2025-10-23 11:38:00
天猫双11闪购服务再升级:上线“爆火好店”超时20分钟享免单
2025天猫双11已于10月20日晚正式开售,首次参与双11大促的淘宝闪购今日官宣再加码:全面上线“爆火好店”频道,并推出“超时20分钟免单”服务
2025-10-23 11:38:00
京东001号“国民好车”最高出价超7800万元 京东回应此次异常高价成交事件
10月22日14时,京东001号“国民好车”在京东拍卖平台正式开拍,至18时结束时,最终价格为7819.3399万元,京东用户@j*p竞拍成功
2025-10-23 11:38:00
参小妹海参官宣倪萍为品牌代言人,新工厂同步剪彩开启秋冬滋补新篇
金秋十月,正值秋冬滋补季启动节点,生鲜电商领域知名海参品牌 “参小妹海参”于大连保税区工厂,正式官宣国民级主持人倪萍出任品牌代言人
2025-10-23 11:47:00
苹果入局F1直播:生态渗透与体育转播的范式革命
当苹果与F1的红色标识在屏幕上并置,一场关于体育转播、数字生态与用户体验的深层变革已然开启。2026年起,苹果将以7.5亿美元的价格拿下F1美国地区独家转播权
2025-10-23 12:17:00