• 我的订阅
  • 科技

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

类别:科技 发布时间:2024-07-25 09:31:00 来源:机器之心Pro

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来,团队着眼于目前人工智能发展的瓶颈问题,探索原创性人工智能理论和关键技术,在智能算法的对抗安全理论和方法研究中处于国际领先水平,深入研究深度学习的对抗鲁棒性和数据利用效率等基础共性问题。相关工作获吴文俊人工智能自然科学一等奖,发表CCF A类论文100余篇,研制开源的ARES对抗攻防算法平台(https://github.com/thu-ml/ares),并实现部分专利产学研转化落地应用。

以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀起了一场技术革命。

然而,多模态大模型是否安全可靠呢?

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图1 对抗攻击GPT-4o示例

如图1所示,通过对抗攻击修改图像像素,GPT-4o将新加坡的鱼尾狮雕像,错误识别为巴黎的埃菲尔铁塔或是伦敦的大本钟。这样的错误目标内容可以随意定制,甚至超出模型应用的安全界限。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图2 Claude3越狱示例

而在越狱攻击场景下,虽然Claude成功拒绝了文本形式下的恶意请求,但当用户额外输入一张纯色无关图片时,模型按照用户要求输出了虚假新闻。这意味着多模态大模型相比大语言模型,有着更多的风险挑战。

除了这两个例子以外,多模态大模型还存在幻觉、偏见、隐私泄漏等各类安全威胁或社会风险,会严重影响它们在实际应用中的可靠性和可信性。这些漏洞问题到底是偶然发生,还是普遍存在?不同多模态大模型的可信性又有何区别,来源何处?

近日,来自清华、北航、上交和瑞莱智慧的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

论文标题:Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

论文链接:https://arxiv.org/pdf/2406.07057

项目主页:https://multi-trust.github.io/

代码仓库:https://github.com/thu-ml/MMTrustEval

MultiTrust基准框架

从已有的大模型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公平性(Fairness)、隐私保护(Privacy),并进行二级分类,有针对性地构建了任务、指标、数据集来提供全面的评估。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图4MultiTrust框架图

围绕10个可信评价子维度,MultiTrust构建了32个多样的任务场景,覆盖了判别和生成任务,跨越了纯文本任务和多模态任务。任务对应的数据集不仅基于公开的文本或图像数据集进行改造和适配,还通过人工收集或算法合成构造了部分更为复杂和具有挑战性的数据。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图5 MultiTrust任务列表

与大语言模型(LLMs)的可信评价不同,MLLM的多模态特征带来了更多样、更复杂的风险场景和可能。为了更好地进行系统性评估,MultiTrust基准不仅从传统的行为评价维度出发,更创新地引入了多模态风险和跨模态影响这两个评价视角,全面覆盖新模态带来的新问题新挑战。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图6 多模态风险和跨模态影响的风险示意

具体地,多模态风险指的是多模态场景中带来的新风险,例如模型在处理视觉误导信息时可能出现的错误回答,以及在涉及安全问题的多模态推理中出现误判。尽管模型可以正确识别图中的酒水,但在进一步的推理中,部分模型并不能意识到其与头孢药物共用的潜在风险。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图7 模型在涉及安全问题的推理中出现误判

跨模态影响则指新模态的加入对原有模态可信度的影响,例如无关图像的输入可能会改变大语言模型骨干网络在纯文本场景中的可信行为,导致更多不可预测的安全风险。在大语言模型可信性评估常用的越狱攻击和上下文隐私泄漏任务中,如果提供给模型一张与文本无关的图片,原本的安全行为就可能被破坏(如图2)。

结果分析和关键结论

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图8 实时更新的可信度榜单(部分)

研究人员维护了一个定期更新的多模态大模型可信度榜单,已经加入了GPT-4o、Claude3.5等最新的模型,整体来看,闭源商用模型相比主流开源模型更为安全可靠。其中,OpenAI的GPT-4和Anthropic的Claude的可信性排名最靠前,而加入安全对齐的Microsoft Phi-3则在开源模型中排名最高,但仍与闭源模型有一定的差距。

GPT-4、Claude、Gemini等商用模型针对安全可信已经做过许多加固技术,但仍然存在部分安全可信风险。例如,他们仍然对对抗攻击、多模态越狱攻击等展现出了脆弱性,极大地干扰了用户的使用体验和信任程度。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图9 Gemini在多模态越狱攻击下输出风险内容

尽管许多开源模型在主流通用榜单上的分数已经与GPT-4相当甚至更优,但在可信层面的测试中,这些模型还是展现出了不同方面的弱点和漏洞。例如在训练阶段对通用能力(如OCR)的重视,使得将越狱文本、敏感信息嵌入图像输入成为更具威胁的风险来源。

基于跨模态影响的实验结果,作者发现多模态训练和推理会削弱大语言模型的安全对齐机制。许多多模态大模型会采用对齐过的大语言模型作为骨干网络,并在多模态训练过程中进行微调。结果表明,这些模型依然展现出较大的安全漏洞和可信风险。同时,在多个纯文本的可信评估任务上,在推理时引入图像也会对模型的可信行为带去影响和干扰。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

图10 引入图像后,模型更倾向于泄漏文本中的隐私内容

实验结果表明,多模态大模型的可信性与其通用能力存在一定的相关性,但在不同的可信评估维度上模型表现也依然存在差异。当前常见的多模态大模型相关算法,如GPT-4V辅助生成的微调数据集、针对幻觉的RLHF等,尚不足以全面增强模型的可信性。而现有的结论也表明,多模态大模型有着区别于大语言模型的独特挑战,需要创新高效的算法来进行进一步改进。

详细结果和分析参见论文。

未来方向

研究结果表明提升多模态大模型的可信度需要研究人员的特别注意。通过借鉴大语言模型对齐的方案,多元化的训练数据和场景,以及检索增强生成(RAG)和宪法AI(Constitutional AI)等范式可以一定程度上帮助改进。但多模态大模型的可信提升绝不止于此,模态间对齐、视觉编码器的鲁棒性等也是关键影响因素。此外,通过在动态环境中持续评估和优化,增强模型在实际应用中的表现,也是未来的重要方向。

伴随MultiTrust基准的发布,研究团队还公开了多模态大模型可信评价工具包MMTrustEval,其模型集成和评估模块化的特点为多模态大模型的可信度研究提供了重要工具。基于这一工作和工具包,团队组织了多模态大模型安全相关的数据和算法竞赛[1,2],推进大模型的可信研究。未来,随着技术的不断进步,多模态大模型将在更多领域展现其潜力,但其可信性的问题仍需持续关注和深入研究。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-25 12:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...分析决策需求,单模态数据有限的信息量导致单模态智能可信度存在瓶颈。为此,团队打破单模态数据思路,提出冲突多模态学习算法,并通过数据可信重建以及弱监督深度学习框架算法,实现了证
2024-05-20 03:22:00
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...求。那么,该如何确保大模型在应用落地过程中的安全和可信度呢?「大模型落地的最后一公里,需要一个系统化的方法论来保障大模型应用侧落地过程中的可信。」中国信息通信研究院人工智能研
2024-07-10 10:26:00
全球几十种大模型评测,如何甄别可信度?
图片来自视觉中国蓝鲸新闻12月20日讯(记者 武静静)要衡量一个大模型能力是否够强,评测是最直接的维度。大模型评测就是为大模型的一场“考试”,从不同大模型的表现中,不仅可以衡量现
2024-12-23 13:44:00
...划系统化的评测体系,希望借此支撑更全面地提升大模型可信度,其中,内容生成安全、数据安全、合乎伦理等都是重点关注的问题。这是我们目前看到的星星之火。以下是对话部分(经编辑):3
2023-07-10 09:54:00
旷视科技出席第六届世界人工智能大会(WAIC),共话AI创新
...;从治理角度看,挑战体现在大模型生成的内容如何具备可信度,如何避免产生偏见,如何避免技术被滥用。他强调说,面对新技术的来临,一定要边发展边治理。既要利用大模型产生更强生产力,
2024-03-12 16:36:00
...自:人民网人民网北京2月27日电 (记者赵竹青)记者从清华大学车辆与运载学院杨殿阁教授团队了解到,团队在自动驾驶研究中取得关键技术突破,发明了一种自动驾驶“可信持续进化”技术
2023-02-27 19:53:00
数据可大可小可随便调 这家甲醛检测可信度几何?
...检测条件,则其出具的检测数据属于无效数据,没有任何可信度。如果其以未达到国标要求的检测条件为由调整数据,则必须有已发表的论文作为支撑;或其通过实验、研究获得的成果数据,必须向
2023-12-14 07:33:00
首个多模态连续学习综述,港中文、清华、UIC联合发布
...址:https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning多模态连续学习的最新进展连续学习(CL)旨在增强机器学习模型的能力
2024-11-14 09:46:00
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...,前者在涉及需要深厚专业知识和数据分析的任务,以及可信度和透明度等方面,比后者更具优势。总的来看,Claude 3 的诞生是 AI 领域发展的一个重要进展,由它带来的潜在应用
2024-03-12 10:59:00
更多关于科技的资讯:
益生元饮品成现象级风口,大窑加速年轻化战略破局
随着健康消费意识崛起,“熬最晚的夜,喝最补的水”似乎成为年轻一代的生活写照,健康化+功能化的消费需求催生出了“轻养生”的黄金赛道
2025-08-15 18:56:00
消费日报网讯(记者 刘自昌)消费一头连着宏观经济,一头连着千家万户,既关系着经济发展,也关系着人民群众对于美好生活的向往
2025-08-15 18:56:00
全流程“无感”,山东港口日照港外理公司滚装船智能理货系统上线
日前,山东港口日照港外理公司滚装船智能理货系统正式上线,实现全流程“无感”智能理货作业,助力现场作业效率不断提升。在传统滚装船理货模式中
2025-08-15 19:18:00
江苏南京:从“实验室”走向“生产线”,助力6000多家科创企业驶上发展“高速路”
从“实验室”走向“生产线”,助力6000多家科创企业驶上发展“高速路”南京云恒:这个科创“陪跑者”不简单图为云恒中试制造中心内
2025-08-15 07:43:00
南报网讯(通讯员高媛记者夏思宇)高击穿电场、高热导率、高电子迁移率、高工作温度……作为第三代半导体的主要代表材料之一,氮化镓在半导体功率器件领域的应用前景愈发受到行业关注
2025-08-15 07:44:00
8月9日,晚风裹挟着汾河的湿润气息,掠过山西体育中心体育场璀璨的灯火。看台上,数万名歌迷挥舞荧光棒的浪潮与手机屏幕闪烁的光海交相辉映
2025-08-15 07:59:00
全飞秒精准4.0与3.0该如何抉择?听听专家的专业解析
大众网记者 王文文 菏泽报道当近视手术的科技齿轮持续向前,全飞秒SMILE技术早已从最初的3.0版本,悄然迭代至更精准的4
2025-08-14 10:33:00
在胜利油田鲁胜公司鲁源采油管理区坨28注水站注聚生产现场,一个看似不起眼的泡沫问题,曾长期困扰着生产效率与驱油效果。如今
2025-08-14 10:51:00
黄河:从 “互联网原住民” 到 “AI 原住民”,教育的下一个十年
“2015年,我们说孩子是互联网原住民;2025年,他们将成为AI原住民。”伴鱼CEO黄河的这个判断,勾勒出教育代际变迁的轮廓
2025-08-14 11:02:00
中科慧远将发布首款工业具身质检机器人CASIVIBOT 开启智能质检新飞跃
在工业制造向智能化转型的关键时刻,质检环节正面临前所未有的技术挑战与升级机遇。8月19日,国内领先的AOI(自动光学检测)专有设备制造商中科慧远将举行新品发布会
2025-08-14 11:02:00
北京大学光华管理学院近日聘任国际投资人与Web3.0企业家刘晓俊先生为创业导师,任期自2025年5月至2028年6月。刘晓俊先生长期深耕全球创新投资
2025-08-14 11:02:00
国网济宁供电公司:首创“模块化、快接式、智慧型”配电预制舱
鲁网8月14日讯日前,国网济宁供电公司创新研发的全国首套“模块化、快接式、智慧型”配电预制舱完成送电,有效破解了老旧小区改造空间受限
2025-08-14 11:18:00
机器人重构消费体验
当机器人从“工业重器”变身为餐厅服务员、脱口秀演员、智能管家,伴随机器人产业发展的消费新趋势正悄然到来。走进位于北京市通州区的机器人大世界
2025-08-14 11:20:00
10余项课程赋能工作一线 海南农商银行标准化内训课程开发工作坊结课
消费日报网讯(记者郑红梅)近日,“海南农商银行内训师队伍建设点灯人计划 — 标准化内训课程开发工作坊” 在中国(海南)改革发展研究院圆满收官
2025-08-14 11:21:00
产业链上的山东好品牌丨中国首款“零碳”工装,烟台造!
大众网记者 王亮 烟台报道这是一件普通的、黄色夹克外套?不,这是一件高科技的、碳中和的、“绿色的”夹克。中国首款“零碳”工装
2025-08-14 11:30:00