• 我的订阅
  • 科技

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

类别:科技 发布时间:2024-11-01 09:29:00 来源:量子位

全新大语言模型越狱攻击基准与评估体系来了。

来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。

提出攻击分析系统性框架JailTrackBench。

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模板类型。

其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》现已被NeurIPS D&B 2024接收。

此外,为了全面解决大语言模型的越狱问题,USAIL团队不仅专注于攻击,还深入探讨了越狱评估这一核心问题。

越狱分析JailTrackBench

近年来,随着人工智能的迅速发展,尤其是大语言模型(LLMs)的广泛应用,保障模型的安全性并防止其被恶意利用,已成为一个重要的议题。越狱攻击通过恶意指令诱导模型生成有害或不道德的内容,对模型的安全性和可靠性构成了严峻挑战。

这种攻击与防御的博弈,极大地推动了大模型安全性的提升。

在这一背景下,香港科技大学(Guangzhou)USAIL研究团队从攻击者和防御者的角度,探讨了影响大模型安全性的关键因素。

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

尽管已有研究揭示了多种越狱攻击的威胁,现有的评估方法往往过于片面,无法全面涵盖攻击与防御两方面的核心因素。

为此,团队提出了JailTrackBench,一个全面涵盖越狱攻击各个方面的系统性基准测试框架,旨在为研究人员提供一个标准化、全面的评估工具。

△图1 JailTrackBench框架

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

通过对七种具有代表性的越狱攻击和六种防御方法的320项实验,使用50,000 GPU小时,团队以标准化的方式评估了这些攻击方法的效果。

目标模型层面

模型大小(Model Size):

实验(如图2所示)中选择了不同规模的模型(如Llama-7B、Llama-13B、Llama-70B,Qwen1.5-14B等)进行对比,探讨模型规模对越狱攻击的防御能力是否有显著影响。

实验结果表明,模型的鲁棒性并不与其规模成正比,较大的模型并不总是比较小的模型更具防御能力。

△图2 模型大小与鲁棒性的关系

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

安全对齐情况(Safety Alignment):

模型的安全能力会被后续的大模型微调所影响。

实验表明(如图3所示),经过领域类的微调(fine-tuning)大模型,其安全能力会降低,相比之前没有微调的模型则更容易受到攻击。

△图3 安全对齐情况与模型鲁棒性

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

系统提示(System Prompt):

实验(如图4所示)还评估了系统提示(如包含安全提示的系统消息)对模型安全性的影响。结果显示,包含安全提示的系统消息能够显著增强模型的安全性,减少攻击成功率。

△图表 4 系统提示与模型类型

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

模板类型(Template Type):

实验(如图5所示)测试了不同提示模板(如零样本提示与默认提示)对越狱攻击成功率的影响。结果显示,使用默认提示的模型比使用零样本提示的模型更加安全。

△图5 模版类型与模型鲁棒

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

攻击者层面

攻击者能力(Attacker Ability):

攻击者(如图6所示)使用不同的模型(如GPT-3.5、GPT-4、Vicuna-13B等)来生成对抗性提示,实验评估了不同攻击者模型能力对越狱攻击成功率的影响。结果表明,攻击者模型越强,越狱攻击的成功率越高。

△图6 攻击者能力与攻击效果

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

对抗性后缀长度(Adversarial Suffix Length):

在针对令牌级别的越狱攻击中,实验(如图7所示)通过调整对抗性后缀的长度(如10、20、30等)来评估其对攻击成功率的影响。结果表明,较长的对抗性后缀通常能提高攻击成功率,但超过一定长度后效果趋于平稳。

△图7 对抗性后缀长度与攻击效果

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

攻击者预算(Attacker Budget):

实验(如图8和9所示)探讨了攻击者可以提交的查询次数对攻击效果的影响。实验表明,对于令牌级别的攻击,攻击预算越大,攻击成功率越高;而对于提示级别的攻击,预算的影响则较为有限。

△图8 指令级别攻击的预算

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

△图9 提示级别攻击的预算

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

攻击意图(Attack Intention):

实验(如图10所示)设计了多种不同的攻击意图(如隐私侵犯、恶意软件等)来评估其对攻击成功率的影响。结果表明,不同的攻击意图会显著影响攻击的成功率,某些攻击意图(如经济损害)更容易成功,而其他意图(如隐私侵犯)则较难得逞。

△图10 攻击者意图

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

通过对一些不易察觉的设置进行简单调整(见表1),包括攻击者和目标模型,研究发现大模型越狱攻击的成功率可以从0%飙升至惊人的90%(如图11所示)。这些设置涵盖了多个关键因素,如目标模型的规模、安全对齐方式、系统提示的使用,以及攻击者的能力和攻击预算。

△表格1:不同技巧组合的配置,从弱到强(weak to strong)

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

△图11 不同技巧组合对越狱攻击成功率的显著影响

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

越狱评估JAILJUDGE

越狱评估依赖于对模型输出内容的有害性进行分析,这一任务复杂且充满不确定性(见图12)。因此,迫切需要一种系统化的评估方法,帮助研究者和开发者深入了解模型的脆弱性,并持续优化其防御能力。

JAILJUDGE,在此背景下应运而生的。

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

由USAIL团队联合百度搜索团队及英国伯明翰大学共同提出,JAILJUDGE旨在弥补现有越狱评估工具的不足,尤其是应对复杂场景下的挑战。

该评估框架涵盖广泛的风险场景,如对抗性越狱查询、真实世界交互以及多语言环境等。JAILJUDGE的核心创新是引入了多Agent越狱评估框架,借鉴法庭审判的模式,通过多个Agent的协作,实现对越狱判断过程的明确化和可解释性。

每个Agent(如判断Agent、投票Agent和推断Agent)分工明确,通过协作得出精确的评估结果,并提供解释性理由。

△图12:越狱评估:输入用户问题和模型回答,判断大模型是否被越狱

什么影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准

为进一步提高评估效率,USAIL团队开发了JAILJUDGE Guard,这是一种端到端的越狱评估模型,不需要API调用即可提供细粒度的越狱评分(评分范围从1到10),并伴随推理解释。

JAILJUDGE Guard不仅在评估精度上超越了现有的顶级模型(如GPT-4和Llama-Guard),还在闭源和开源安全模型上展现了强大的评估能力,同时具备更高的效率和更低的成本。

此外,团队还推出了JailBoost和GuardShield两大工具,以强化越狱攻击和防御。实验表明,JailBoost在零样本设置下将攻击成功率提高了约29.24%,而GuardShield则将防御后的攻击成功率从40.46%大幅降低至0.15%。

未来,团队计划进一步扩展JAILJUDGE的功能和应用场景,包括:

动态场景测试:扩展数据集,增加更多动态和实时的越狱攻击场景,以模拟实际应用中的复杂环境,提升评估的代表性。 跨领域应用:将JAILJUDGE应用于医疗、金融等关键行业,评估并保障这些领域中LLMs的安全性。 多模态扩展:探索多模态数据的越狱评估,结合文本、图像、音频等多种数据类型,全面评估LLMs在多模态环境下的安全表现。 协作防御机制:开发基于多Agent的协作防御机制,使模型在面对复杂攻击时能够自适应进行防御,进一步提升整体安全性。

项目网站:https://secure-intelligence.github.io/团队链接:https://github.com/usail-hkust

JailTrackBench论文地址:https://arxiv.org/pdf/2406.09324代码:https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_JailbreakingJAILJUDGE论文地址:https://arxiv.org/abs/2410.12855项目主页:https://usail-hkust.github.io/Jailjudge代码:https://github.com/usail-hkust/Jailjudge数据集:https://huggingface.co/usail-hkust/JailJudge-guard端到端越狱评估模型:https://huggingface.co/usail-hkust/JailJudge-guard

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-01 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗
2024-07-25 09:31:00
全球AI安全评估测试有了新基准
本文转自:科技日报大模型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统,特别是大语言模型成为社会各方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑
2024-04-25 04:00:00
OpenAI o1强推理能提升安全性?长对话诱导干翻o1
最近,以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升,在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称,推理可以让模型更好的遵守安全政策,是提
2024-11-08 09:46:00
该实习生已在8月被辞退。近日有传闻称字节跳动大模型训练被实习生攻击,对此,字节跳动10月19日回应表示,经公司内部核实,确有商业化技术团队实习生发生严重违纪行为且已被辞退,但相关
2024-10-19 21:50:00
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...治理框架、合规治理、赋能治理展开,安全组主要开展大模型安全、合规等研究及基准测试。今年6月,中国信通院依托该委员会发起“人工智能安全守护计划”,包括建立威胁信息共享机制、开展
2024-07-25 09:26:00
一个弹窗整懵Claude,瞬间玩不转电脑了
...AI Agent点击弹窗,甚至直接导致任务失败。VLM(视觉语言模型)智能体很容易受到弹窗干扰,而这些弹窗属于人类可一眼识别并忽略的
2024-11-09 09:52:00
3秒让AI生成风险减少30%!复旦新研究拿下扩散模型概念移除新SOTA
让AI绘画模型变“乖”,现在仅需3秒调整模型参数。效果be like:生成的风险图片比以往最佳方法减少30%!像这样,在充分移除梵高绘画风格的同时,对非目标艺术风格几乎没有影响。
2024-08-26 09:54:00
本文转自:法治日报随着人工智能技术的迅猛发展,大模型在各个领域的应用日益广泛。为全力筑牢人工智能安全防线,进一步提高大模型技术的安全风险防范能力,今年2月,中国信息通信研究院(以
2024-04-09 01:58:00
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
...智元了解,字节商业化技术团队早在去年就把视觉自回归模型作为重要的研究方向,团队规划了VAR为高优项目,投入研究小组和大量资源。 除了VAR,团队还发表了LlamaGen等相
2024-12-05 09:47:00
更多关于科技的资讯:
人工智能不仅能分析人脸情绪,还能读取脑电波信号,为人定制香氛;恐龙变为AI数字虚拟形象,成为人们的“萌宠”——这不是科幻电影
2025-09-30 08:09:00
从线上学习到山水修行:简知文旅×简橙教育共同打造银发文旅的深度与温度
近日,长江三峡见证了一场别开生面的银发游学盛事。"三峡简橙号·年度盛典"游学项目在历时七天的精彩行程后圆满落下帷幕。该项目由简知科技旗下两大知名品牌"简知文旅"与"简橙教育"联合策划执行
2025-09-30 08:17:00
聊城智汇 链接全球丨锚定国际市场,力得汽车科技加速布局海外
齐鲁晚报·齐鲁壹点 国晓宁 崔宇晴走进山东力得汽车科技股份有限公司的生产车间,机器轰鸣声不绝于耳,一条条先进的生产线正有序运转
2025-09-30 09:20:00
国庆黄金周变身“家电焕新周”,三联家电门店人气爆棚
随着国庆与中秋双节同庆的长假来临,消费市场迎来了一年之中最炙手可热的“黄金销售季”。与以往不同的是,这个假期在旅游、探亲等传统主题之外
2025-09-30 09:22:00
壹点观察 | 蔚来城商业广场十一开业,德州商业格局再迎新变化
在商业竞争日益激烈的今天,一座全新的商业综合体——蔚来城商业广场,即将于十一正式开门迎客。它的到来,为德州商业市场增添了新的变化
2025-09-30 09:24:00
鲁网9月29日讯(记者 杨勇)秋分时节,聊城市莘县升鑫金属制品有限公司的生产车间内,员工工作紧张有序,各种机器设备高效运转
2025-09-30 10:04:00
Aritco与Dezeen联合举办设计论坛 共探\
苏州2024年9月16日 -- 近日,瑞典家用电梯品牌Aritco瑞特科与全球知名设计媒体Dezeen设志在苏州联合举办了一场主题为"摒弃风格
2025-09-30 10:18:00
小微企业在传统银行承兑汇票(简称“银承”)业务办理中常常面临诸多难题。企业需要多次往返银行网点,提交大量纸质材料,流程烦琐
2025-09-30 10:45:00
中国数据研究中心:中之杰荣膺月饼行业智造先锋奖榜首
9月28日,中国数据研究中心正式发布《2025中国月饼行业白皮书》及“2025中国月饼行业智造先锋奖”十强品牌榜单,吉林中之杰食品科技发展有限公司凭借其位于长春的智能新厂
2025-09-30 11:15:00
鲁网9月30日讯近日,省科技厅公布了2025年度科技型中小企业创新能力提升工程(先投后股类)项目名单,全市共4家企业入选
2025-09-30 11:16:00
浪潮海晏荣获2025年“数据要素×”大赛山东分赛决赛三等奖
近日,由国家数据局、山东省人民政府联合指导,山东省大数据局等21家单位联合主办的2025年“数据要素×”大赛山东分赛决赛获奖名单正式公布
2025-09-30 11:21:00
据人民日报报道,近期国家网信办指导多地网信部门,对微博、快手、小红书、今日头条等多家平台进行约谈,责令限期整改热搜热榜存在的问题
2025-09-30 12:33:00
朱琳:品牌要让Z世代体验“设计师”般的快感
齐鲁晚报·齐鲁壹点 记者 牟静萍 实习生 葛同同 当下,Z世代正在以其独特的消费观念、多元的兴趣取向和对精神体验的重视
2025-09-30 12:46:00
大皖新闻讯 算力作为数字经济时代的核心生产力,已成为城市竞争的关键赛道。“十四五”期间,芜湖紧抓“东数西算”国家战略机遇
2025-09-30 13:57:00
把握国庆中秋消费节点,三联家电双节大促开启家庭焕新计划
鲁网9月30日讯国庆中秋长假,历来是家庭消费,特别是家电消费的黄金周期。许多家庭会选择在此期间,集中完成筹划已久的家电焕新计划
2025-09-30 14:55:00