• 我的订阅
  • 科技

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

类别:科技 发布时间:2024-07-25 09:31:00 来源:机器之心Pro

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来,团队着眼于目前人工智能发展的瓶颈问题,探索原创性人工智能理论和关键技术,在智能算法的对抗安全理论和方法研究中处于国际领先水平,深入研究深度学习的对抗鲁棒性和数据利用效率等基础共性问题。相关工作获吴文俊人工智能自然科学一等奖,发表CCF A类论文100余篇,研制开源的ARES对抗攻防算法平台(https://github.com/thu-ml/ares),并实现部分专利产学研转化落地应用。

以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀起了一场技术革命。

然而,多模态大模型是否安全可靠呢?

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图1 对抗攻击GPT-4o示例

如图1所示,通过对抗攻击修改图像像素,GPT-4o将新加坡的鱼尾狮雕像,错误识别为巴黎的埃菲尔铁塔或是伦敦的大本钟。这样的错误目标内容可以随意定制,甚至超出模型应用的安全界限。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图2 Claude3越狱示例

而在越狱攻击场景下,虽然Claude成功拒绝了文本形式下的恶意请求,但当用户额外输入一张纯色无关图片时,模型按照用户要求输出了虚假新闻。这意味着多模态大模型相比大语言模型,有着更多的风险挑战。

除了这两个例子以外,多模态大模型还存在幻觉、偏见、隐私泄漏等各类安全威胁或社会风险,会严重影响它们在实际应用中的可靠性和可信性。这些漏洞问题到底是偶然发生,还是普遍存在?不同多模态大模型的可信性又有何区别,来源何处?

近日,来自清华、北航、上交和瑞莱智慧的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

论文标题:Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

论文链接:https://arxiv.org/pdf/2406.07057

项目主页:https://multi-trust.github.io/

代码仓库:https://github.com/thu-ml/MMTrustEval

MultiTrust基准框架

从已有的大模型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公平性(Fairness)、隐私保护(Privacy),并进行二级分类,有针对性地构建了任务、指标、数据集来提供全面的评估。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图4MultiTrust框架图

围绕10个可信评价子维度,MultiTrust构建了32个多样的任务场景,覆盖了判别和生成任务,跨越了纯文本任务和多模态任务。任务对应的数据集不仅基于公开的文本或图像数据集进行改造和适配,还通过人工收集或算法合成构造了部分更为复杂和具有挑战性的数据。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图5 MultiTrust任务列表

与大语言模型(LLMs)的可信评价不同,MLLM的多模态特征带来了更多样、更复杂的风险场景和可能。为了更好地进行系统性评估,MultiTrust基准不仅从传统的行为评价维度出发,更创新地引入了多模态风险和跨模态影响这两个评价视角,全面覆盖新模态带来的新问题新挑战。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图6 多模态风险和跨模态影响的风险示意

具体地,多模态风险指的是多模态场景中带来的新风险,例如模型在处理视觉误导信息时可能出现的错误回答,以及在涉及安全问题的多模态推理中出现误判。尽管模型可以正确识别图中的酒水,但在进一步的推理中,部分模型并不能意识到其与头孢药物共用的潜在风险。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图7 模型在涉及安全问题的推理中出现误判

跨模态影响则指新模态的加入对原有模态可信度的影响,例如无关图像的输入可能会改变大语言模型骨干网络在纯文本场景中的可信行为,导致更多不可预测的安全风险。在大语言模型可信性评估常用的越狱攻击和上下文隐私泄漏任务中,如果提供给模型一张与文本无关的图片,原本的安全行为就可能被破坏(如图2)。

结果分析和关键结论

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图8 实时更新的可信度榜单(部分)

研究人员维护了一个定期更新的多模态大模型可信度榜单,已经加入了GPT-4o、Claude3.5等最新的模型,整体来看,闭源商用模型相比主流开源模型更为安全可靠。其中,OpenAI的GPT-4和Anthropic的Claude的可信性排名最靠前,而加入安全对齐的Microsoft Phi-3则在开源模型中排名最高,但仍与闭源模型有一定的差距。

GPT-4、Claude、Gemini等商用模型针对安全可信已经做过许多加固技术,但仍然存在部分安全可信风险。例如,他们仍然对对抗攻击、多模态越狱攻击等展现出了脆弱性,极大地干扰了用户的使用体验和信任程度。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图9 Gemini在多模态越狱攻击下输出风险内容

尽管许多开源模型在主流通用榜单上的分数已经与GPT-4相当甚至更优,但在可信层面的测试中,这些模型还是展现出了不同方面的弱点和漏洞。例如在训练阶段对通用能力(如OCR)的重视,使得将越狱文本、敏感信息嵌入图像输入成为更具威胁的风险来源。

基于跨模态影响的实验结果,作者发现多模态训练和推理会削弱大语言模型的安全对齐机制。许多多模态大模型会采用对齐过的大语言模型作为骨干网络,并在多模态训练过程中进行微调。结果表明,这些模型依然展现出较大的安全漏洞和可信风险。同时,在多个纯文本的可信评估任务上,在推理时引入图像也会对模型的可信行为带去影响和干扰。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图10 引入图像后,模型更倾向于泄漏文本中的隐私内容

实验结果表明,多模态大模型的可信性与其通用能力存在一定的相关性,但在不同的可信评估维度上模型表现也依然存在差异。当前常见的多模态大模型相关算法,如GPT-4V辅助生成的微调数据集、针对幻觉的RLHF等,尚不足以全面增强模型的可信性。而现有的结论也表明,多模态大模型有着区别于大语言模型的独特挑战,需要创新高效的算法来进行进一步改进。

详细结果和分析参见论文。

未来方向

研究结果表明提升多模态大模型的可信度需要研究人员的特别注意。通过借鉴大语言模型对齐的方案,多元化的训练数据和场景,以及检索增强生成(RAG)和宪法AI(Constitutional AI)等范式可以一定程度上帮助改进。但多模态大模型的可信提升绝不止于此,模态间对齐、视觉编码器的鲁棒性等也是关键影响因素。此外,通过在动态环境中持续评估和优化,增强模型在实际应用中的表现,也是未来的重要方向。

伴随MultiTrust基准的发布,研究团队还公开了多模态大模型可信评价工具包MMTrustEval,其模型集成和评估模块化的特点为多模态大模型的可信度研究提供了重要工具。基于这一工作和工具包,团队组织了多模态大模型安全相关的数据和算法竞赛[1,2],推进大模型的可信研究。未来,随着技术的不断进步,多模态大模型将在更多领域展现其潜力,但其可信性的问题仍需持续关注和深入研究。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-25 12:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...分析决策需求,单模态数据有限的信息量导致单模态智能可信度存在瓶颈。为此,团队打破单模态数据思路,提出冲突多模态学习算法,并通过数据可信重建以及弱监督深度学习框架算法,实现了证
2024-05-20 03:22:00
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...求。那么,该如何确保大模型在应用落地过程中的安全和可信度呢?「大模型落地的最后一公里,需要一个系统化的方法论来保障大模型应用侧落地过程中的可信。」中国信息通信研究院人工智能研
2024-07-10 10:26:00
全球几十种大模型评测,如何甄别可信度?
图片来自视觉中国蓝鲸新闻12月20日讯(记者 武静静)要衡量一个大模型能力是否够强,评测是最直接的维度。大模型评测就是为大模型的一场“考试”,从不同大模型的表现中,不仅可以衡量现
2024-12-23 13:44:00
...划系统化的评测体系,希望借此支撑更全面地提升大模型可信度,其中,内容生成安全、数据安全、合乎伦理等都是重点关注的问题。这是我们目前看到的星星之火。以下是对话部分(经编辑):3
2023-07-10 09:54:00
旷视科技出席第六届世界人工智能大会(WAIC),共话AI创新
...;从治理角度看,挑战体现在大模型生成的内容如何具备可信度,如何避免产生偏见,如何避免技术被滥用。他强调说,面对新技术的来临,一定要边发展边治理。既要利用大模型产生更强生产力,
2024-03-12 16:36:00
...自:人民网人民网北京2月27日电 (记者赵竹青)记者从清华大学车辆与运载学院杨殿阁教授团队了解到,团队在自动驾驶研究中取得关键技术突破,发明了一种自动驾驶“可信持续进化”技术
2023-02-27 19:53:00
数据可大可小可随便调 这家甲醛检测可信度几何?
...检测条件,则其出具的检测数据属于无效数据,没有任何可信度。如果其以未达到国标要求的检测条件为由调整数据,则必须有已发表的论文作为支撑;或其通过实验、研究获得的成果数据,必须向
2023-12-14 07:33:00
首个多模态连续学习综述,港中文、清华、UIC联合发布
...址:https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning多模态连续学习的最新进展连续学习(CL)旨在增强机器学习模型的能力
2024-11-14 09:46:00
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...,前者在涉及需要深厚专业知识和数据分析的任务,以及可信度和透明度等方面,比后者更具优势。总的来看,Claude 3 的诞生是 AI 领域发展的一个重要进展,由它带来的潜在应用
2024-03-12 10:59:00
更多关于科技的资讯:
酷似张翰网红买了辆迈巴赫:为了圆梦
4月19日消息,据媒体报道,因酷似张翰走红的博主“佛山电翰”称,团队做视频挣了几百万,为圆梦买了辆迈巴赫。他表示,只要你们有想法
2025-04-19 17:57:00
BBA国产劲敌!享界S9增程版上市72小时大定破5200台
快科技4月19日消息,鸿蒙智行官方发布海报显示,享界S9增程版上市72小时,大定已突破5200台。享界S9增程版于4月16日上市
2025-04-19 18:27:00
TCL拿下电视代工厂全球第1 比第2多出一个富士康
快科技4月19日消息,根据洛图科技(RUNTO)数据显示,统计范围内,2025年3月,Top10的专业ODM工厂出货总量较去年同期增长了6
2025-04-19 18:27:00
1元起 京东举办全国首场人形机器人拍卖:含马拉松第2名小孩哥
快科技4月19日消息,为了让尖端科技加速走向大众,4月20日晚8点,京东拍卖将举办全国首场“人形机器人拍卖会”。本次拍卖的机器人包括参加马拉松比赛的松延动力N2机器人
2025-04-19 18:57:00
问界M8上市72小时终于爆了 大定破4.4万台
快科技4月19日消息,鸿蒙智行宣布,家庭智慧旗舰SUV——问界M8上市72小时大定破4.4万台。该车型于4月16日上市
2025-04-19 19:27:00
“晓芹”获评中国消费名品 大连唯一入选品牌
近日,工业和信息化部近日发布首批中国消费名品名单,包括企业品牌93个、区域品牌43个,同时公布了中国消费名品成长企业42家
2025-04-19 19:45:00
“首批中国消费名品”发布 晓芹唯一海参品牌入选
近日,工业和信息化部正式公布首批中国消费名品名单,大连晓芹食品有限公司凭借卓越的产品品质和持续的创新实力,成功入选"中国消费名品成长企业"名单
2025-04-19 19:45:00
长安董事长透露阿维塔名字起因:选长安、华为、宁德时代的名字谐音
快科技4月19日消息,阿维塔今日晚间举办阿维塔06上市发布会。会上,长安汽车董事长朱华荣介绍,有不少朋友问他,为什么阿维塔要娶个外国名字
2025-04-19 19:57:00
华为赋能最美轿车!阿维塔06亮相
快科技4月19日消息,今晚,阿维塔06正式亮相。阿维塔科技董事长朱华荣介绍,阿维塔06是华为赋能的最美轿车,是一款专为年轻用户打造的第一台豪华轿车
2025-04-19 20:27:00
史上最安全的第二排!极氪009首搭全球唯一C环座椅
快科技4月19日消息,在今晚的发布会上,极氪009推出的C环座椅,真的让人眼前一亮,尤其是对第二排的安全性提升到了一个全新的高度
2025-04-19 20:27:00
华为靳玉志发布会特意强调“驾驶辅助”:不是L3
快科技4月19日消息,今日晚间,阿维塔06正式亮相,这款新车搭载华为乾崑智驾系统。在介绍阿维塔06乾崑智驾系统之前,华为靳玉志介绍了乾崑智驾的最新使用数据
2025-04-19 20:27:00
国产最强超豪华MPV 极氪009光辉典藏版亮相:用了3克24K纯金
快科技4月19日消息,在今晚举办的“极氪009光辉之夜”上,极氪带来了全新的极氪009光辉典藏版,该车是极氪009序列里最顶级的存在
2025-04-19 20:27:00
“模拟马”项目深圳签约 共建智能马术生态
本文转自:人民网活动现场展示高精度运动仿真模拟马系统。主办方供图三方正式签署模拟马项目战略合作。主办方供图人民网深圳4月19日电 (王星)4月19日
2025-04-19 20:55:00
5.68万元起!五菱缤果正式上市:标配直流快充 35分钟充至80%
快科技4月19日消息,五菱缤果终于正式上市了,这次上市的2025款五菱缤果推出了203km轻享款、333km灵犀互联款
2025-04-19 20:57:00
全球“含金量”最高的MPV 极氪009光辉典藏版上市:89.9万元
快科技4月19日消息,刚刚,极氪009光辉典藏版上市,售价89.9万元,配有金徽标、金腰线、金轮毂、金羊绒,号称“全球含金量最高的顶奢四座超豪华旗舰”
2025-04-19 20:57:00