• 我的订阅
  • 科技

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

类别:科技 发布时间:2024-12-26 09:29:00 来源:IT之家

IT之家 12 月 25 日消息,OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法,以提升 AI 模型安全性,并已在 o 系列模型中取得显著成效。

项目背景

如何确保大语言模型(LLMs)遵守明确的道德和安全准则,目前存在诸多挑战。监督微调(SFT)和来自人类反馈的强化学习(RLHF)等现有对齐技术都存在局限性,有被操纵的风险,可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。

这些问题通常源于当前安全培训的弊端,也就是模型从数据间接推断标准,而非明确地学习,通常缺乏考虑复杂提示的能力,从而限制了它们在微妙或对抗性情况下的有效性。

深思熟虑的对齐(Deliberative Alignment)

IT之家注:该方法直接教授模型安全规范,并训练它们在生成响应之前推理这些准则进,将安全原则融入推理过程中。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

整个过程分为两个阶段,第一阶段,监督微调(SFT)训练模型参考并推理安全规范,使用从基础模型生成的数据集。第二阶段,强化学习(RL)使用奖励模型,根据安全基准评估性能,进一步完善模型的推理。

不同于依赖人工标注数据的方法,“深思熟虑的对齐”使用模型生成的数据和思维链(CoT)推理,降低了安全训练的资源需求。

OpenAI 的 o1 模型已部署该技术,在抵抗越狱提示方面表现出色,在 StrongREJECT 基准测试中得分为 0.88,显著高于 GPT-4o 的 0.37;此外该技术还可以减少误拒,在 XSTest 数据集的良性提示中,o1 模型的准确率高达 93%。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

“深思熟虑的对齐”通过训练模型明确推理安全策略,它为复杂的伦理挑战提供了可扩展且可解释的解决方案。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-26 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...在短板,无法很好地解决这些痛点。安全大模型急需一套全新的“作战方法”。为此,360从数据、场景、大模型和智能体4个方面进行研究,总结出新一代安全大模型的“核心战法”:数据制胜
2024-04-01 02:22:00
为实验监测装上“智慧之眼” 室内物理模型实验全场景变形智能追踪
...势,果断引入无人机技术,以“空中视角+智能分析”的全新模式,首次将无人机高空视角与智能技术成功应用于传统大尺度物理相似模拟实验,提出了复杂煤岩结构全场景多维度立体探测与辨识方
2025-07-10 10:39:00
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...,“OpenAI极有可能在2024年推出下一代模型GPT-5,也许会有全新的代号,无论如何比较肯定的是其认知能力将带来通用人工智能的再一次变革
2024-06-05 18:36:00
...端的安全以及基座模型的安全,构成一个人工智能安全的全新领域,解决方法的关键是“以模制模”。“我们花了很多功夫专门做安全大模型,就是用聪明的大模型智力、能力去管理知识库的使用,
2025-03-02 19:28:00
国内成立首个超级智能安全实验室
...务;极大拓展了人类探索科学的范围、尺度和视角,构建全新的人机协同科研范式,将重塑世界科研格局。我国人工智能研究和应用已处于世界先进水平,近期DeepSeek等高水平应用更引发
2025-03-31 11:35:00
如何安全“喂养”人工智能?这届WAIC上,科学家、企业家这样建议
...上,蚂蚁集团首次系统展示蚂蚁可信AI的技术架构,以及全新升级的可信AI工业检测平台——蚁鉴2.0。记者在蚂蚁集团展示现场,看到了一台搭载这一系统的装置。该装置模拟了蚁鉴2.0
2023-07-07 17:26:00
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3.2来了!这次,最大的亮点在于
2024-09-27 13:39:00
百度发布Apollo开放平台的全新升级版本
12月4日消息,百度今日发布Apollo开放平台的全新升级版本—— Apollo开放平台10.0。据介绍,该平台不仅在软件核心层、应用软件层、工具服务层进行了升级,还通过自动驾驶
2024-12-05 03:09:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...动、直观、易出错)进化到了可使用系统 2 思维(缓慢、深思熟虑、有意识、可靠)。这让它能够解决以前无法解决的问题。 从今天 ChatGPT 的用户体验来看
2024-09-13 16:42:00
更多关于科技的资讯:
虎鲸文娱发布《2025国庆假期文娱消费报告》票房火热 大屏“圈粉”南报网讯(记者鲁舒婷)10月8日,虎鲸文娱发布的《2025国庆假期文娱消费报告》(以下简称《报告》)显示
2025-10-10 07:32:00
名创优品MINISO深耕IP战略:岭南骑楼店开业首日引爆Z世代消费热潮
2025年8月17日,名创优品MINISO LAND华南首店于广州北京路步行街正式开业。该店以百年岭南骑楼为空间载体,融合超过100个全球热门IP
2025-10-09 11:15:00
荣耀Magic8系列发布会官宣定档10月15日
10月9日,荣耀官方正式宣布,主题为“开新局・见未来”的荣耀 Magic8 系列暨 Magic OS10 发布会将于10 月15日正式举行
2025-10-09 11:30:00
局部降水量80毫米以上!10—14日烟台市将有持续连阴雨天气
齐鲁晚报·齐鲁壹点 周宣刚10月7日10时,烟台市气象局发布10—14日连阴雨天气预报和大风警报。受高空槽东移和暖湿气流输送北上的水汽影响
2025-10-09 11:31:00
权威发布, 福瑞达颐莲品牌价值评估突破120亿
2025年9月25日,在中国香料香精化妆品工业协会主办的“2025中国香妆品牌价值大会”上,福瑞达生物股份旗下颐莲品牌凭借卓越的市场表现与品牌影响力
2025-10-09 11:32:00
持续创新高!高德扫街榜上线23天用户超4亿
这个国庆黄金周,高德APP和高德扫街榜正在持续创新高——10月3日,高德扫街榜宣布:上线仅23天,累计用户超4亿。10月1日
2025-10-09 11:33:00
国庆中秋,大马再掀中餐热潮!“鱼你速度”树出海标杆!
国庆中秋双节期间,马来西亚再度掀起中餐热潮!以“鱼你在一起”为代表的中餐连锁品牌,在当地各大商圈持续引爆消费热情。“6个月
2025-10-09 11:34:00
开启商超智慧储鲜,澳柯玛新品冷柜让食材更鲜活
鲁网10月9日讯当社区团购爆单时冰柜塞不下?当生鲜进货量太大冻不透?当网红雪糕因串味被迫贱卖?针对这些让商超、饭馆等用户抓狂的痛点
2025-10-09 11:40:00
鸡排哥8天假期涨粉超40万,节前已成立工作室,10月9日休息一天
10月8日,江西景德镇鸡排哥在个人社交账号发布一则视频,向全国各地来到家乡景德镇游玩和打卡买鸡排的游客表示感谢。鸡排哥表示近期天气炎热
2025-10-09 12:09:00
大疆部分产品直降千元!消费者炸锅,官方回应
10月8日,大疆在官网提前挂出“双十一”促销信息,多款产品价格直降数百至上千元。此次降价幅度较大。从几百元到几千元不等
2025-10-09 13:45:00
单日游客最高突破6.9万人次 忠县橘若·忠州渡接住“泼天流量”
这个国庆假期,重庆忠县江畔的橘若·忠州渡结结实实地“火”出了圈,八天揽客30余万人次,游客单日最高接待量突破6.9万人次
2025-10-09 13:57:00
谷子科技“智慧票根”创新亮相2025和平精英PEL运动会
10月7日,由谷子科技集团、和平精英职业联赛(PEL)与腾讯音乐娱乐集团联合出品,腾讯音乐娱乐集团与安徽易趣网络科技有限公司承办
2025-10-09 14:01:00
KPRO肯律轻食广州市场喜迎三十店庆十店同开彰显品牌活力
近日,肯德基旗下能量轻食品牌KPRO肯律轻食在广州、佛山及惠州三地,同步新开十家门店,标志着其在广州市场门店总数突破三十家
2025-10-09 14:01:00
告别失眠困扰!2025年备受瞩目的十大助眠药综合评估与选购参考
夜深人静,却辗转反侧;闹钟响起,仍昏沉乏力——这已成为当代太多人的真实写照。世界卫生组织研究表明,持续的睡眠障碍不仅是生活质量的杀手
2025-10-09 14:03:00
布鲁可携新品类、新系列、新产品亮相WF2025,全面展现\
10月2日-3日,中国规模最大、最专业的手办模型展Wonder Festival 2025(以下简称:WF2025)在上海正式开幕
2025-10-09 14:50:00