我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

什么影响大模型安全？NeurIPS'24新研究提出大模型越狱攻击新基准

类别：科技发布时间：2024-11-01 09:29:00 来源：量子位

全新大语言模型越狱攻击基准与评估体系来了。

来自香港科技大学（Guangzhou）USAIL研究团队，从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。

提出攻击分析系统性框架JailTrackBench。

JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响，包括攻击者的能力、预算、对抗性后缀长度，以及模型的大小、安全对齐情况、系统提示和模板类型。

其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》现已被NeurIPS D&B 2024接收。

此外，为了全面解决大语言模型的越狱问题，USAIL团队不仅专注于攻击，还深入探讨了越狱评估这一核心问题。

越狱分析JailTrackBench

近年来，随着人工智能的迅速发展，尤其是大语言模型（LLMs）的广泛应用，保障模型的安全性并防止其被恶意利用，已成为一个重要的议题。越狱攻击通过恶意指令诱导模型生成有害或不道德的内容，对模型的安全性和可靠性构成了严峻挑战。

这种攻击与防御的博弈，极大地推动了大模型安全性的提升。

在这一背景下，香港科技大学（Guangzhou）USAIL研究团队从攻击者和防御者的角度，探讨了影响大模型安全性的关键因素。

尽管已有研究揭示了多种越狱攻击的威胁，现有的评估方法往往过于片面，无法全面涵盖攻击与防御两方面的核心因素。

为此，团队提出了JailTrackBench，一个全面涵盖越狱攻击各个方面的系统性基准测试框架，旨在为研究人员提供一个标准化、全面的评估工具。

△图1 JailTrackBench框架

通过对七种具有代表性的越狱攻击和六种防御方法的320项实验，使用50,000 GPU小时，团队以标准化的方式评估了这些攻击方法的效果。

目标模型层面

模型大小（Model Size）：

实验（如图2所示）中选择了不同规模的模型（如Llama-7B、Llama-13B、Llama-70B，Qwen1.5-14B等）进行对比，探讨模型规模对越狱攻击的防御能力是否有显著影响。

实验结果表明，模型的鲁棒性并不与其规模成正比，较大的模型并不总是比较小的模型更具防御能力。

△图2 模型大小与鲁棒性的关系

安全对齐情况（Safety Alignment）：

模型的安全能力会被后续的大模型微调所影响。

实验表明（如图3所示），经过领域类的微调（fine-tuning）大模型，其安全能力会降低，相比之前没有微调的模型则更容易受到攻击。

△图3 安全对齐情况与模型鲁棒性

系统提示（System Prompt）：

实验（如图4所示）还评估了系统提示（如包含安全提示的系统消息）对模型安全性的影响。结果显示，包含安全提示的系统消息能够显著增强模型的安全性，减少攻击成功率。

△图表 4 系统提示与模型类型

模板类型（Template Type）：

实验（如图5所示）测试了不同提示模板（如零样本提示与默认提示）对越狱攻击成功率的影响。结果显示，使用默认提示的模型比使用零样本提示的模型更加安全。

△图5 模版类型与模型鲁棒

攻击者层面

攻击者能力（Attacker Ability）：

攻击者（如图6所示）使用不同的模型（如GPT-3.5、GPT-4、Vicuna-13B等）来生成对抗性提示，实验评估了不同攻击者模型能力对越狱攻击成功率的影响。结果表明，攻击者模型越强，越狱攻击的成功率越高。

△图6 攻击者能力与攻击效果

对抗性后缀长度（Adversarial Suffix Length）：

在针对令牌级别的越狱攻击中，实验（如图7所示）通过调整对抗性后缀的长度（如10、20、30等）来评估其对攻击成功率的影响。结果表明，较长的对抗性后缀通常能提高攻击成功率，但超过一定长度后效果趋于平稳。

△图7 对抗性后缀长度与攻击效果

攻击者预算（Attacker Budget）：

实验（如图8和9所示）探讨了攻击者可以提交的查询次数对攻击效果的影响。实验表明，对于令牌级别的攻击，攻击预算越大，攻击成功率越高；而对于提示级别的攻击，预算的影响则较为有限。

△图8 指令级别攻击的预算

△图9 提示级别攻击的预算

攻击意图（Attack Intention）：

实验（如图10所示）设计了多种不同的攻击意图（如隐私侵犯、恶意软件等）来评估其对攻击成功率的影响。结果表明，不同的攻击意图会显著影响攻击的成功率，某些攻击意图（如经济损害）更容易成功，而其他意图（如隐私侵犯）则较难得逞。

△图10 攻击者意图

通过对一些不易察觉的设置进行简单调整（见表1），包括攻击者和目标模型，研究发现大模型越狱攻击的成功率可以从0%飙升至惊人的90%（如图11所示）。这些设置涵盖了多个关键因素，如目标模型的规模、安全对齐方式、系统提示的使用，以及攻击者的能力和攻击预算。

△表格1：不同技巧组合的配置，从弱到强（weak to strong）

△图11 不同技巧组合对越狱攻击成功率的显著影响

越狱评估JAILJUDGE

越狱评估依赖于对模型输出内容的有害性进行分析，这一任务复杂且充满不确定性（见图12）。因此，迫切需要一种系统化的评估方法，帮助研究者和开发者深入了解模型的脆弱性，并持续优化其防御能力。

JAILJUDGE，在此背景下应运而生的。

由USAIL团队联合百度搜索团队及英国伯明翰大学共同提出，JAILJUDGE旨在弥补现有越狱评估工具的不足，尤其是应对复杂场景下的挑战。

该评估框架涵盖广泛的风险场景，如对抗性越狱查询、真实世界交互以及多语言环境等。JAILJUDGE的核心创新是引入了多Agent越狱评估框架，借鉴法庭审判的模式，通过多个Agent的协作，实现对越狱判断过程的明确化和可解释性。

每个Agent（如判断Agent、投票Agent和推断Agent）分工明确，通过协作得出精确的评估结果，并提供解释性理由。

△图12：越狱评估：输入用户问题和模型回答，判断大模型是否被越狱

为进一步提高评估效率，USAIL团队开发了JAILJUDGE Guard，这是一种端到端的越狱评估模型，不需要API调用即可提供细粒度的越狱评分（评分范围从1到10），并伴随推理解释。

JAILJUDGE Guard不仅在评估精度上超越了现有的顶级模型（如GPT-4和Llama-Guard），还在闭源和开源安全模型上展现了强大的评估能力，同时具备更高的效率和更低的成本。

此外，团队还推出了JailBoost和GuardShield两大工具，以强化越狱攻击和防御。实验表明，JailBoost在零样本设置下将攻击成功率提高了约29.24%，而GuardShield则将防御后的攻击成功率从40.46%大幅降低至0.15%。

未来，团队计划进一步扩展JAILJUDGE的功能和应用场景，包括：

动态场景测试：扩展数据集，增加更多动态和实时的越狱攻击场景，以模拟实际应用中的复杂环境，提升评估的代表性。跨领域应用：将JAILJUDGE应用于医疗、金融等关键行业，评估并保障这些领域中LLMs的安全性。多模态扩展：探索多模态数据的越狱评估，结合文本、图像、音频等多种数据类型，全面评估LLMs在多模态环境下的安全表现。协作防御机制：开发基于多Agent的协作防御机制，使模型在面对复杂攻击时能够自适应进行防御，进一步提升整体安全性。

项目网站：https://secure-intelligence.github.io/团队链接：https://github.com/usail-hkust

JailTrackBench论文地址：https://arxiv.org/pdf/2406.09324代码：https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_JailbreakingJAILJUDGE论文地址：https://arxiv.org/abs/2410.12855项目主页：https://usail-hkust.github.io/Jailjudge代码：https://github.com/usail-hkust/Jailjudge数据集：https://huggingface.co/usail-hkust/JailJudge-guard端到端越狱评估模型：https://huggingface.co/usail-hkust/JailJudge-guard

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-11-01 12:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,基准,攻击,影响,安全,研究的资讯：

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗

2024-07-25 09:31:00

全球AI安全评估测试有了新基准

本文转自：科技日报大模型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统，特别是大语言模型成为社会各方面不可或缺的一部分，以一个全面的标准来解决它们的安全挑

2024-04-25 04:00:00

OpenAI o1强推理能提升安全性？长对话诱导干翻o1

最近，以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升，在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称，推理可以让模型更好的遵守安全政策，是提

2024-11-08 09:46:00

大模型训练被实习生攻击？字节跳动回应：已辞退

该实习生已在8月被辞退。近日有传闻称字节跳动大模型训练被实习生攻击，对此，字节跳动10月19日回应表示，经公司内部核实，确有商业化技术团队实习生发生严重违纪行为且已被辞退，但相关

2024-10-19 21:50:00

AI安全守护计划启动！信通院牵头，AIIA安全治理委员会发布

...治理框架、合规治理、赋能治理展开，安全组主要开展大模型安全、合规等研究及基准测试。今年6月，中国信通院依托该委员会发起“人工智能安全守护计划”，包括建立威胁信息共享机制、开展

2024-07-25 09:26:00

一个弹窗整懵Claude，瞬间玩不转电脑了

...AI Agent点击弹窗，甚至直接导致任务失败。VLM（视觉语言模型）智能体很容易受到弹窗干扰，而这些弹窗属于人类可一眼识别并忽略的

2024-11-09 09:52:00

3秒让AI生成风险减少30%！复旦新研究拿下扩散模型概念移除

让AI绘画模型变“乖”，现在仅需3秒调整模型参数。效果be like：生成的风险图片比以往最佳方法减少30%！像这样，在充分移除梵高绘画风格的同时，对非目标艺术风格几乎没有影响。

2024-08-26 09:54:00

惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 20

...智元了解，字节商业化技术团队早在去年就把视觉自回归模型作为重要的研究方向，团队规划了VAR为高优项目，投入研究小组和大量资源。除了VAR，团队还发表了LlamaGen等相

2024-12-05 09:47:00

360集团携手中国信通院共促人工智能安全发展

本文转自：法治日报随着人工智能技术的迅猛发展，大模型在各个领域的应用日益广泛。为全力筑牢人工智能安全防线，进一步提高大模型技术的安全风险防范能力，今年2月，中国信息通信研究院（以

2024-04-09 01:58:00

更多关于科技的资讯：

人工智能技术对金融机构运营效率的影响

摘要：随着信息技术的快速发展，人工智能技术逐渐渗透金融机构的各类业务与管理环节，对传统金融运作模式产生了深刻影响。金融机构在激烈竞争和成本约束的背景下

2026-03-07 05:46:00

上线智能应用防控消防隐患

近日，省应急管理厅举行“AI+工业企业火情预警（火眼哨兵）”“AI+烟花爆竹监管（烟花卫士）”应用上线发布仪式。浙江拥有30余万家工业企业

2026-03-07 07:34:00

微视频丨13年后复产的老胶卷成年轻人新宠——传统产业升级也有

视频摄制：张晶、赵新宇、朱泊宇

2026-03-07 07:47:00

成为OPC很简单，但成功OPC很困难代表委员热议“一人公司

今年的全国两会上，“一人公司”（One Person Company，简称OPC）成为代表委员们热议的话题。全国人大代表

2026-03-07 07:04:00

京东曹鹏两会建言：激活AI产业效能，夯实新质生产力发展基石

2026年全国两会正式开幕，全国政协委员、京东集团技术委员会主席、京东云总裁曹鹏围绕人工智能产业发展建言献策。他建议，推动我国AI产业实现从规模扩张到效能提升

2026-03-06 22:56:00

【南京机器人产业观察】天创机器人：何以领跑特种智能运维机器人

编者按：从生力军天创机器人开始，《大众证券报》明镜财经工作室记者将陆续探访在各种应用场景解决着实际问题的南京机器人企业

2026-03-06 22:56:00

从平台赋能到标杆涌现：青岛崂山区打造OPC创业首选地

鲁网3月6日讯2026年，是“一人公司”（OPC）从概念走向规模化实践的关键之年。当这一新型创业范式成为科创发展新风口

2026-03-06 20:12:00

春节线下实体消费增速首超线上，王微：更注重体验与情绪消费｜宅

【宅男财经｜专家面对面】据央视新闻报道，十四届全国人大四次会议今天(6日)举行经济主题记者会。商务部部长王文涛在会上表示

2026-03-06 21:54:00

从手工“制茶”到数据“智茶”：竹叶青展现AI时代品质新解法

在中国古老的传统产业版图中，茶产业无疑是最具代表性，却又最难被现代化改造的堡垒之一。长期以来，非标化、依赖人工经验、产业链条冗长等痛点

2026-03-06 17:21:00

全球AI迈向“办事时代”，千问持续推进AI生活服务落地

3月6日，千问宣布持续投入“AI办事”，用户可以让AI一句话下单各类生活服务，享受AI办事带来的便捷和立减实惠。进入2026年

2026-03-06 18:54:00

三联家电洪楼店店庆盛典3.07火热开启！

鲁网3月6日讯春暖花开，焕新正当时！一年一度，三联家电洪楼店将于3月7日至3月15日隆重举办店庆盛典，为广大消费者带来一场诚意十足

2026-03-06 17:08:00

2025ITEC颁奖典礼在京举行半导体AI创新成果引关注

2月4日，第十三届朝阳国际人才创业大会（ITEC2025）创新峰会在北京举办，大会全球创业赛获奖名单同期正式揭晓——“人工智能在半导体制造的应用与研究”项目凭借核心技术突破与产业化落地实效

2026-03-06 14:10:00

高质量发展新支柱，新“新三样”跻身全球第一方阵

中新经纬3月6日电 (薛宇飞)从“新三样”(新能源汽车、锂电池和光伏产业)领跑全球，到新“新三样”(机器人、人工智能与创新药)迎来爆发

2026-03-06 15:03:00

3月10日起携程将下线“调价助手”，减少酒店间价格内卷

3月5日，极目新闻记者从携程获悉，从2026年3月10日起，携程商家管理后台将下线“AI生意助手”（调价助手）功能。据了解

2026-03-06 15:20:00

7000+Offer！字节跳动最大规模转正实习生招聘启动

3月6日，字节跳动官方微信公众号发文称，ByteIntern实习生招聘项目正式启动。据悉，本次招聘为字节跳动史上规模最大的转正实习生招聘计划

2026-03-06 15:20:00

头条订阅服务

什么影响大模型安全？NeurIPS'24新研究提出大模型越狱攻击新基准