• 我的订阅
  • 科技

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

类别:科技 发布时间:2024-12-26 09:29:00 来源:IT之家

IT之家 12 月 25 日消息,OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法,以提升 AI 模型安全性,并已在 o 系列模型中取得显著成效。

项目背景

如何确保大语言模型(LLMs)遵守明确的道德和安全准则,目前存在诸多挑战。监督微调(SFT)和来自人类反馈的强化学习(RLHF)等现有对齐技术都存在局限性,有被操纵的风险,可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。

这些问题通常源于当前安全培训的弊端,也就是模型从数据间接推断标准,而非明确地学习,通常缺乏考虑复杂提示的能力,从而限制了它们在微妙或对抗性情况下的有效性。

深思熟虑的对齐(Deliberative Alignment)

IT之家注:该方法直接教授模型安全规范,并训练它们在生成响应之前推理这些准则进,将安全原则融入推理过程中。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

整个过程分为两个阶段,第一阶段,监督微调(SFT)训练模型参考并推理安全规范,使用从基础模型生成的数据集。第二阶段,强化学习(RL)使用奖励模型,根据安全基准评估性能,进一步完善模型的推理。

不同于依赖人工标注数据的方法,“深思熟虑的对齐”使用模型生成的数据和思维链(CoT)推理,降低了安全训练的资源需求。

OpenAI 的 o1 模型已部署该技术,在抵抗越狱提示方面表现出色,在 StrongREJECT 基准测试中得分为 0.88,显著高于 GPT-4o 的 0.37;此外该技术还可以减少误拒,在 XSTest 数据集的良性提示中,o1 模型的准确率高达 93%。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

“深思熟虑的对齐”通过训练模型明确推理安全策略,它为复杂的伦理挑战提供了可扩展且可解释的解决方案。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-26 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...在短板,无法很好地解决这些痛点。安全大模型急需一套全新的“作战方法”。为此,360从数据、场景、大模型和智能体4个方面进行研究,总结出新一代安全大模型的“核心战法”:数据制胜
2024-04-01 02:22:00
为实验监测装上“智慧之眼” 室内物理模型实验全场景变形智能追踪
...势,果断引入无人机技术,以“空中视角+智能分析”的全新模式,首次将无人机高空视角与智能技术成功应用于传统大尺度物理相似模拟实验,提出了复杂煤岩结构全场景多维度立体探测与辨识方
2025-07-10 10:39:00
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...,“OpenAI极有可能在2024年推出下一代模型GPT-5,也许会有全新的代号,无论如何比较肯定的是其认知能力将带来通用人工智能的再一次变革
2024-06-05 18:36:00
...端的安全以及基座模型的安全,构成一个人工智能安全的全新领域,解决方法的关键是“以模制模”。“我们花了很多功夫专门做安全大模型,就是用聪明的大模型智力、能力去管理知识库的使用,
2025-03-02 19:28:00
国内成立首个超级智能安全实验室
...务;极大拓展了人类探索科学的范围、尺度和视角,构建全新的人机协同科研范式,将重塑世界科研格局。我国人工智能研究和应用已处于世界先进水平,近期DeepSeek等高水平应用更引发
2025-03-31 11:35:00
如何安全“喂养”人工智能?这届WAIC上,科学家、企业家这样建议
...上,蚂蚁集团首次系统展示蚂蚁可信AI的技术架构,以及全新升级的可信AI工业检测平台——蚁鉴2.0。记者在蚂蚁集团展示现场,看到了一台搭载这一系统的装置。该装置模拟了蚁鉴2.0
2023-07-07 17:26:00
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3.2来了!这次,最大的亮点在于
2024-09-27 13:39:00
百度发布Apollo开放平台的全新升级版本
12月4日消息,百度今日发布Apollo开放平台的全新升级版本—— Apollo开放平台10.0。据介绍,该平台不仅在软件核心层、应用软件层、工具服务层进行了升级,还通过自动驾驶
2024-12-05 03:09:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...动、直观、易出错)进化到了可使用系统 2 思维(缓慢、深思熟虑、有意识、可靠)。这让它能够解决以前无法解决的问题。 从今天 ChatGPT 的用户体验来看
2024-09-13 16:42:00
更多关于科技的资讯:
新春走基层|总台春晚这条“骐骥驰骋”红色羊绒围巾出自河北品牌
见习记者于歆2026年总台春晚舞台上部分演员及嘉宾佩戴的“骐骥驰骋”红色羊绒围巾,出自河北品牌!由邢台市清河县的河北红太集团生产
2026-02-17 01:36:00
阿里发布千问3.5,性能媲美Gemini 3, Token价格仅为其1/18
2月16日除夕当天,阿里巴巴开源全新一代大模型千问Qwen3.5-Plus,性能媲美Gemini 3 Pro,登顶全球最强开源模型
2026-02-16 17:34:00
海信冰箱联手央视《探班春晚》 用真空保鲜科技“锁住年味”
鲁网2月16日讯2月16日,作为央视新闻新媒体《探班春晚》的独家家电合作伙伴,海信冰箱携真空保鲜科技亮相“春晚会客厅”
2026-02-16 18:47:00
余杭文化“新三样”扬帆 驶向全球文化蓝海
《长安三万里·梦回大唐》获金鸡虚拟现实电影季“年度最佳艺术表现奖”。后亚运时代,杭州如何将因赛会集聚的国际目光,转化为持续的城市发展动能
2026-02-16 11:33:00
北京亦庄与它石智航达成战略合作!共建产业新高地
2026年伊始,具身智能产业持续加速发展。2月14日,北京亦庄与它石智航达成战略合作,双方将在具身智能关键技术攻关、应用落地和产业生态建设方面展开合作
2026-02-16 08:21:00
厦门网讯(厦门日报记者 林露虹)马年春节假期,厦门科技企业的“电子年货”火热上线。在厦门过年,市民和游客可以请AI当导游
2026-02-16 08:40:00
自2025年夏季,京东、美团、阿里等数字平台企业相继开启围绕即时零售市场的激烈争夺。这场“闪购大战”,初期以各方投入“天价补贴”争抢流量而引发社会广泛关注
2026-02-16 08:53:00
马年新春,光景别样。打开手机AI小程序,输入姓名、爱好与新年心愿,一键可生成专属春联。AI深度融入日常生活,无所不在。拥抱AI
2026-02-16 07:39:00
鲁网2月15日讯在人工智能加速重构产业组织形态的背景下,“一人即公司”(OPC)正成为全球创新创业的新范式。2026年2月12日
2026-02-15 20:48:00
石家庄市栾城区妇联举办美妆技能培训
河北新闻网讯(王秀平、李明发)近日,石家庄市栾城区妇联联合妆颜美化妆培训学校,精心举办了一场干货满满的美妆技能培训活动
2026-02-15 19:16:00
英科医疗开年首展登录迪拜WHX展会,“中国智造”医疗解决方案亮相全球市场
2月9日至12日,全球领先的医疗护理产品供应商英科医疗携三大事业部创新成果亮相阿拉伯国际医疗器械展览会(World Health Expo Dubai)
2026-02-15 13:50:00
龙岗文旅数字IP城市巡礼破圈传播,迎春花市成内容热点
市民围观、拍照打卡,数字人引爆春节花市春节前夕,龙岗迎春花市迎来一场特别的巡礼:数字IP首次在花市与市民面对面互动。现场
2026-02-15 13:52:00
近日,中亦科技收到了一封来自大众汽车的感谢信。信中对中亦科技服务团队在应对大规模生产系统突发故障时的卓越表现,以及长期以来展现出的专业素养和“以客户为中心”的担当精神给予了高度评价
2026-02-15 10:23:00
杭产数字人“席卷”东南亚
“这款粉底色号非常自然,贴合亚洲人肤色。” 马来西亚TikTok直播间,一位妆容精致的主播正微笑着与观众互动,当用户追问具体颜色
2026-02-15 07:41:00