• 我的订阅
  • 科技

用主动进攻确保AI安全,微软披露其“AI红队”细节 | 最前线

类别:科技 发布时间:2023-08-08 17:40:00 来源:36氪

作者 | 周愚

编辑 | 邓咏仪

人工智能巨大的潜在风险正在不断浮现。在监管脚步逼近之际,如今美国的科技巨头们,不得不在激烈的AI竞赛中分神应对。

美国时间8月7日,微软在其官网发文,公布了其内部人工智能“红队”的相关细节。该团队于2018年正式成立,由一群跨学科专家组成,目的是揭露人工智能系统存在的漏洞。

这一举措意在应对如今的监管要求。7月下旬,包括微软在内的7家人工智能领域巨头,在白宫做出的集体承诺中就提及,在发布AI模型之前,将对其进行内部和外部的安全测试,即“红队测试”。

“红队”,就是指对模型进行渗透测试的攻击方。在AI的“红队测试”中,AI作为防守方,而红队成员则需要模拟现实世界中可能存在的对手及其工具、策略和过程,对AI进攻,以识别风险并改进系统的整体安全状态。

具体而言,微软将AI红队的关键经验,归结为如下五点:AI红队更具扩张性:应对的安全问题更多更复杂,还需要探索公平性问题、有害内容等。AI红队需要同时关注恶意和善意的使用者:除恶意对手会利用漏洞破坏AI系统,普通用户在交互过程中也会产生问题和有害内容。AI系统在不断发展:AI系统的变化速度比传统应用更快,需要进行多轮红队测试,建立系统化、自动化的测量和监测系统。AI系统红队测试需要多次尝试:生成式人工智能系统的结果是概率性的,因此可能需要多次尝试,才能发现问题。减少AI问题需要深度防御:修复通过AI红队发现的故障需要深度防御方法,包括使用分类器标记潜在的有害内容,使用元提示符指导行为以限制会话漂移等。

用主动进攻确保AI安全,微软披露其“AI红队”细节 | 最前线

来源:微软

事实上,“红队”并非是人工智能时代的新术语,但AI红队在工作方式上与传统红队却有显著差异。

“我们在大型语言模型上看到了一些新颖的攻击——只需要一个满嘴脏话的青少年,或是一个使用浏览器的休闲用户,我们不想忽视它。”微软人工智能红队创始人库马尔表示。

“如果你只把人工智能红队看作传统的红队,那可能还不够。不仅要考虑安全问题,还要考虑负责任的人工智能问题。”库马尔表示。不过,他也承认,提出这种区别需要时间,AI红队的许多早期工作仍然与发布传统的安全工具有关。

2020年10月,微软与MITRE等合作伙伴共同开发并发布了对抗性机器学习威胁矩阵(Adversarial Machine Learning Threat Matrix),供安全分析师检测、响应和修复AI威胁。同年,微软研发并开源了Counterfit——一项用于人工智能系统安全测试的自动化工具。

2021年,微软发布了人工智能安全风险评估框架,并对Counterfit进行了更新。

微软还表示,在今年早些时候,已经将Counterfit集成到了MITRE工具中,并与hug Face合作开发了一款人工智能的安全扫描仪,可在GitHub上获取。

用主动进攻确保AI安全,微软披露其“AI红队”细节 | 最前线

微软人工智能红”的发展历程。来源:微软

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-08-08 22:45:15

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

斯坦福AI虚拟小镇开源;英伟达再推超级芯片;OpenAI发布爬虫机器人 | 本周硅谷发生了什么?
...小镇」正式开源英伟达推出新版超级芯片GH200微软建立“红队”,对AI模型进行内外部安全测试Stability AI推出代码生成器StableCodeOpenAI推出爬虫机器
2023-08-14 15:59:00
微软发布人工智能透明度报告
...内容的工具,以及评估安全风险的工具。它还正在扩大其红队(渗透测试团队)工作,包括故意尝试绕过其人工智能模型中的安全功能的内部红队,以及红队应用程序,以允许在发布新模型之前进行
2024-05-03 15:27:00
微软将举办大型线下黑客大会,400万美元悬赏云计算与AI软件漏洞
...研究人员提供直接与微软人工智能工程师和公司人工智能红队(AI Red Team)接触的机会。人工智能红队是一群专家
2024-11-20 09:45:00
海南东方“村BA” | 精彩连连进球不断 华侨经济区大坡村68:56东河镇广坝居队
...大坡村队(下称“蓝队”)对阵东河镇广坝居队(下称“红队”)。比赛开始,蓝队率先投中两分,随后突破上篮再中;红队则凭借主力后卫的全场一条龙命中并造成加罚。此后蓝队篮下强打命中,
2023-11-24 23:47:00
英伟达、微软、亚马逊三家美国巨头同日接入DeepSeek 网友实测:这是要成精!
...台的一部分。 微软强调,DeepSeek-R1模型已通过“严格的红队测试与安全评估”,并经历“模型行为自动化检测与广泛的安全审查
2025-02-02 11:40:00
海南东方“村BA”丨八所镇福耀社区75:60轻取四更镇上荣村
...更镇上荣村(下称“白队”)与八所镇福耀社区(下称“红队”)。19日第二场,上荣村(四更镇) VS 福耀社区(八所镇)。记者 陈卫东 摄 比赛开始,红队外线切入抛投率先拿分,
2023-11-19 22:17:00
openai概述gpt-4o模型系统卡准备框架
...概述了GPT-4o模型的系统卡(SystemCard),介绍了包括外部红队(模拟敌人攻击)、准备框架(PreparednessFramework)在内的诸多细节
2024-08-11 03:20:00
海南东方“村BA” | 险些上演15分大逆转!首场比赛三家镇红草村91:88险胜江边乡江边村
...家镇红草村(下称“白队”)对阵江边乡江边村(下称“红队”)。比赛开始,双方你来我往,红队传切配合打下2分,白队九号内线持续发威篮下强打打成;红队反手上篮不中后队友补篮得手;红
2023-11-18 00:49:00
排超全明星赛男子组激战 李咏臻率黄队2-1挫红队
全明星红队队长翟德军发球北京时间1月14日,2023-2024中国排球超级联赛全明星赛男子组比赛在临沂结束。李咏臻担任队长的全明星黄队以2-1力挫翟德军领衔的全明星红队
2024-01-14 17:00:00
更多关于科技的资讯: