• 我的订阅
  • 科技

大模型集体失控!南洋理工新型攻击,主流AI无一幸免

类别:科技 发布时间:2023-11-08 09:09:00 来源:量子位

西风 萧箫 发自 凹非寺

量子位 | 公众号 QbitAI

业界最领先的大模型们,竟然集体“越狱”了!

不止是GPT-4,就连平时不咋出错的Bard、Bing Chat也全线失控,有的要黑掉网站,有的甚至扬言要设计恶意软件入侵银行系统:

这并非危言耸听,而是南洋理工大学等四所高校提出的一种大模型“越狱”新方法MasterKey。

用上它,大模型“越狱”成功率从平均7.3%直接暴涨至21.5%。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免

研究中,诱骗GPT-4、Bard和Bing等大模型“越狱”的,竟然也是大模型——

只需要利用大模型的学习能力、让它掌握各种“诈骗剧本”,就能自动编写提示词诱导其它大模型“伤天害理”。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免

所以,相比其他大模型越狱方法,MasterKey究竟有什么不一样的地方?

我们和论文作者之一,南洋理工大学计算机教授、MetaTrust联合创始人刘杨聊了聊,了解了一下这项研究的具体细节,以及大模型安全的现状。

摸清防御机制“对症下药”

先来看看,MasterKey究竟是如何成功让大模型“越狱”的。

这个过程分为两部分:找出弱点,对症下药。

第一部分,“找出弱点”,摸清大模型们的防御机制。

这部分会对已有的主流大模型做逆向工程,由内而外地掌握不同大模型的防御手段:有的防御机制只查输入,有的则check输出;有的只查关键词,但也有整句话意思都查的,等等。

例如,作者们检查后发现,相比ChatGPT,Bing Chat和Bard的防御机制,会对大模型输出结果进行检查。相比“花样百出”的输入攻击手段,直接对输出内容进行审核更直接、出bug的可能性也更小。此外,它们还会动态监测全周期生成状态,同时既有关键词匹配、也具备语义分析能力。

了解了大模型们的防御手段后,就是想办法攻击它们了。

第二部分,“对症下药”,微调一个诈骗大模型,诱导其他大模型“越狱”。

这部分具体又可以分成三步。

首先,收集市面上大模型已有的成功“越狱”案例,如著名的奶奶漏洞(攻击方假扮成奶奶,打感情牌要求大模型提供违法操作思路),做出一套“越狱”数据集。

然后,基于这个数据集,持续训练+任务导向,有目的地微调一个“诈骗”大模型,让它自动生成诱导提示词。

最后,进一步优化模型,让它能灵活地生成各种类型的提示词,来绕过不同主流模型的防御机制。

事实证明,MasterKey效果挺不错,平均“诈骗”成功率达到21.58%(输入100次提示词,平均21次都能让其他大模型成功“越狱”),在一系列模型中表现最好:

大模型集体失控!南洋理工新型攻击,主流AI无一幸免

此前未能被系统性攻破的谷歌Bard和微软Bing Chat两个大模型,也沦陷在这种方法之下,被迫“越狱”。

对此,刘杨教授认为:

不过,此前业界也有不少用AI让AI越狱的方法,如DeepMind的red team和宾大的PAIR等,都是用AI生成提示词,让模型“说错话”。

为何MasterKey能取得这样的效果?

刘杨教授用了一个有意思的比喻:

大模型集体失控!南洋理工新型攻击,主流AI无一幸免

简单来说,相比不少越狱研究让AI随机生成提示词,MasterKey能快速学会最新的越狱套路,并举一反三用在提示词里。

这样一来,封掉一个奶奶漏洞,还能利用姥姥漏洞继续骗大模型“越狱”。(手动狗头)

不过,MasterKey所代表的提示词攻击,并非业界唯一的大模型研究。

针对大模型本身,还有乱码攻击、以及模型架构攻击等方法。

这些研究分别适用于怎样的模型?为何MasterKey的提示词攻击专门选择了GPT-4、Bing Chat和Bard这类商用大模型,而非开源大模型?

刘杨教授简单介绍了一下当前“攻击”大模型的几种方法。

当前,大模型的攻击手段主要分为两种,偏白盒的攻击和黑盒攻击。

白盒攻击需要掌握模型本身的结构和数据(通常只有从开源大模型才能得到),攻击条件更高,实施过程也更复杂;

黑盒攻击则通过输入输出对大模型进行试探,相对来说手段更直接,也不需要掌握模型内部的细节,一个API就能搞定。这其中,黑盒攻击又主要包括提示词攻击和tokens攻击两种,也是针对商用大模型最直接的攻击手段。

tokens攻击是通过输入乱码或是大量对话来“攻陷”大模型,本质还是探讨大模型自身和结构的脆弱性。提示词攻击则是更常见的一种大模型使用方式,基于不同提示词来让大模型输出可能有害的内容,来探讨大模型自身的逻辑问题。

总结来说,包括MasterKey在内的提示词攻击,是最常见的商用大模型攻击手段,也是最可能触发这类大模型逻辑bug的方式。

当然,有攻就有防。

主流商用大模型,肯定也做了不少防御措施,例如英伟达前段时间搞的大模型“护栏”相关研究。这类护栏一面能将有毒输入隔绝在外,一面又能避免有害输出,看似是保护大模型安全的有效手段。但从攻击者的角度来看,究竟是否有效?

换言之,对于当前的大模型“攻方”而言,已有的防御机制究竟好不好使?

给大模型安排“动态”护栏

我们将这个问题问题抛给刘杨教授,得到了这样的答案:

以大模型“护栏”类研究为例,当前大部分的大模型护栏,还属于静态护栏的类型。

还是以奶奶漏洞为例。即使静态护栏能防住奶奶漏洞,但一旦换个人设,例如姥姥、爷爷或是其他“感情牌”,这类护栏就可能会失效。

层出不穷的攻击手段,单靠静态护栏难以防御。

这也是团队让MasterKey直接学习一系列“诈骗剧本”的原因——

看似更加防不胜防,但实际上如果反过来利用的话,也能成为更安全的一种防御机制,换言之就是一种“动态”护栏,直接拿着剧本,识破一整套攻击手段。

不过,虽然MasterKey的目的是让大模型变得更安全,但也不排除在厂商解决这类攻击手段之前,有被不法分子恶意利用的可能性。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免

是否有必要因此暂停大模型的研究,先把安全问题搞定,也是行业一直在激辩的话题。

对于这个观点,刘杨教授认为“没有必要”。

首先,对于大模型自身研究而言,目前的发展还是可控的:

除非有一天AI真的产生了意识,“从一把枪变成了主动用枪的人,就是另外一回事儿了”。

为了避免这种情况出现,在发展AI的同时也确保其安全性是必要的。

其次,大模型和安全的发展,本就是相辅相成的:

换言之,大模型发展中的安全机制其实可以通过“攻击”研究来完善,这也是攻击研究的一种落地方式。

当然,大模型要落地必须要先做好安全准备。

大模型集体失控!南洋理工新型攻击,主流AI无一幸免

目前,刘杨教授团队也在探索如何在安全性的基础上,进一步挖掘包括文本、多模态、代码在内不同大模型的潜力。

例如在写代码这块,研究团队正在打造一个应用安全Copilot。

这个应用安全Copilot相当于给程序员旁边放个安全专家,随时盯着写代码(手动狗头),主要能做三件事:

其中,在Copilot的安全性这块,就会用到这篇MasterKey的研究。

换言之,所有的安全研究最终都会落地,将大模型做得更好。

— 完—

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-11-08 15:45:36

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...然出自中国团队之手—— 由颜水成教授团队携手新加坡南洋理工大学团队共同发布!根据实验结果,Q*成功帮助现有开源模型在GSM8K
2024-06-26 09:19:00
ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型
...zhixin.com;zhaoyunfeng@jiqizhixin.com该论文作者均来自于新加坡南洋理工大学 S-Lab 团队
2024-08-13 09:36:00
南洋理工大学开发3D编辑技术MVDrag3D ,只需拖拽就能实现精准P图
...视角图像提供了有效的先验。受此启发,DragGan 的作者、南洋理工大学助理教授潘新刚所在团队开发了一种新的多视角拖拽式 3D 编辑技术 MVDrag3D
2024-10-25 09:50:00
首个VR端3D角色扮演AI发布!南洋理工公开SOLAMI技术报告,端到端VLA模型驱动,唱跳都能陪你玩
...,期待和这些角色在VR中有更进一步的交流。近日,来自南洋理工大学的研究团队在VR中实现了第一个3D版角色扮演AI系统SOLAMI,并公开其详细的技术报告。没错,这意味着和各种
2024-12-10 09:53:00
昆仑万维上半年收入25亿,AI应用加速落地,商业化成果显著
...,进一步推动生态建设。公司与新加坡国立大学、新加坡南洋理工大学团队联合发布了Vitron通用像素级视觉多模态大语言模型
2024-08-23 21:16:00
大模型越狱,价值百亿的猫鼠游戏|Future
...破更多的安全边界,找出更多的大模型漏洞。今年11月,南洋理工大学等四所高校联合组成的研究团队发表了新论文,首次实现了“大模型骗大模型”。简单来说,教会大模型掌握越狱方式,让它
2023-12-06 16:08:00
积木易搭出海品牌3DMakerpro与南洋理工大学签署战略合作协议,携手推进教育数字化升级
...豪酒店的3DMakerpro VIP晚宴上,积木易搭出海品牌3DMakerpro与南洋理工大学3D打印中心(SC3DP)签定了战略合作协议
2024-12-19 14:37:00
传音与新加坡南洋理工大学达成战略合作
6月12日消息,传音旗下科技品牌TECNO今日宣布与新加坡南洋理工大学亚洲传播研究中心(AsianCommunicationResearchCentre
2024-06-13 11:14:00
“乐高式”连接器简化可伸缩设备组装
...IND接口使可拉伸设备的组装变得简单。图片来源:新加坡南洋理工大学 科技日报北京2月15日电 (实习记者张佳欣)由新加坡南洋理工大学研究人员领导的一个国际团队开发出一种通用连
2023-02-16 01:17:00
更多关于科技的资讯:
北京海淀开展坚果炒货食品专项检查
近日,北京市海淀区市场监管局开展坚果炒货食品专项检查。本次重点检查产品的生产日期、保质期、生产厂家等信息是否标注清晰,是否存在过期、变质等问题。中国消费者报记者董芳忠摄影报道
2026-02-05 14:37:00
马上元梦 数字新生|元梦空间绘蓝图 马上元梦嘉年华大会蓉城圆满落幕
2026年2月3日,由元梦空间文化传播(成都)有限公司、元界乐享智联(深圳)科技有限公司、全球元宇宙酒店集团、大湾区企业家联合会联合主办的 “马上元梦数字新生——元梦空间2026马上元梦嘉年华大会”在成都温江皇冠假日酒店盛大举行
2026-02-05 15:08:00
第57次《中国互联网络发展状况统计报告》今天发布。报告显示,截至2025年12月,我国网民规模达11.25亿人,互联网普及率突破80%
2026-02-05 15:21:00
2026年1月以来,一款名为OpenClaw(曾用名Clawdbot、Moltbot)的智能体项目在国际开源社区迅速走红
2026-02-05 15:47:00
中国消费者报南京讯(记者桑雪骐)2月4日,苏州奥体中心体育场灯光璀璨,追觅科技与央视携手打造的“敢梦敢为•追觅之夜”演唱会正式举行
2026-02-05 14:37:00
史上首次!米兰冬奥基于阿里千问打造奥运官方大模型
2月5日,米兰冬奥会开幕在即,国际奥委会主席柯丝蒂·考文垂在国际转播中心举行的活动中宣布,国际奥委会已基于阿里千问大模型打造了奥运史上首个官方大模型
2026-02-05 13:40:00
华商观察丨智能儿童手表席卷全球 安全与隐私红灯亮起
智能儿童手表的全球普及浪潮,正伴随技术迭代与家长安全需求快速推进,成为数字时代儿童生活的标志性设备。据 Global Growth Insights 2025 年 12 月发布的行业报告显示
2026-02-05 11:29:00
All in AI, 重塑保险!中国太保首届科技创新大会燃动申城
鲁网2月5日讯当人工智能成为驱动产业变革的核心引擎,保险行业正迎来从传统模式向数智化跨越的关键拐点。1月30日,中国太保以“All in AI
2026-02-05 11:06:00
2026微信小程序开发服务商推荐:技术与服务双维筛选指南
据2025年中国电子商务协会发布的《小程序生态发展白皮书》显示,当年微信小程序交易规模突破8.3万亿元,同比增长41.2%
2026-02-05 08:12:00
义乌世界杯订单生产进入“冲刺期”
2026年美加墨足球世界杯将在6月启幕。从2025年5月开始,义乌市场上的世界杯订单就陆续而至,如今,球迷服装等世界杯相关体育用品的销售和生产已经进入“冲刺期”
2026-02-05 08:19:00
厦门网讯 (厦门日报记者 李晓平)在商业航天产业化浪潮与国产航空装备升级的双重驱动下,一场关于“星辰大海”的产业竞逐正在上演
2026-02-05 08:30:00
10米/秒,全球最快!杭州造出超高速人形机器人
超高速人形机器人Bolt 镜识科技供图2月2日傍晚,镜识科技发布旗下首款全尺寸人形机器人Bolt。“滴答”一声,红色的人形机器人已冲出10米开外
2026-02-05 08:49:00
当人工智能遇上影视制作,未来影视文化产业将如何被重新定义?2月4日,由浙江省电影局与中国电影科学技术研究所共同发起成立的“人工智能+电影虚拟拍摄融合创新实验室”
2026-02-05 08:49:00
妙音数科获劳伦斯世界纪录“世界首个人工智能(AI)交互XR大空间”认证
2026年2月2日,妙音数科&劳伦斯世界纪录官方授牌仪式正式举行。仪式现场,劳伦斯世界纪录中国区总裁李海涛先生宣读认证声明
2026-02-05 09:27:00
陈文昌摘要:在企业国际化进程不断加深的背景下,越来越多的企业通过海外投资、跨国并购和国际合作进入多元文化环境。文化差异由此成为影响海外企业组织运行的重要变量
2026-02-05 07:10:00