• 我的订阅
  • 科技

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

类别:科技 发布时间:2024-12-26 09:29:00 来源:IT之家

IT之家 12 月 25 日消息,OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法,以提升 AI 模型安全性,并已在 o 系列模型中取得显著成效。

项目背景

如何确保大语言模型(LLMs)遵守明确的道德和安全准则,目前存在诸多挑战。监督微调(SFT)和来自人类反馈的强化学习(RLHF)等现有对齐技术都存在局限性,有被操纵的风险,可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。

这些问题通常源于当前安全培训的弊端,也就是模型从数据间接推断标准,而非明确地学习,通常缺乏考虑复杂提示的能力,从而限制了它们在微妙或对抗性情况下的有效性。

深思熟虑的对齐(Deliberative Alignment)

IT之家注:该方法直接教授模型安全规范,并训练它们在生成响应之前推理这些准则进,将安全原则融入推理过程中。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

整个过程分为两个阶段,第一阶段,监督微调(SFT)训练模型参考并推理安全规范,使用从基础模型生成的数据集。第二阶段,强化学习(RL)使用奖励模型,根据安全基准评估性能,进一步完善模型的推理。

不同于依赖人工标注数据的方法,“深思熟虑的对齐”使用模型生成的数据和思维链(CoT)推理,降低了安全训练的资源需求。

OpenAI 的 o1 模型已部署该技术,在抵抗越狱提示方面表现出色,在 StrongREJECT 基准测试中得分为 0.88,显著高于 GPT-4o 的 0.37;此外该技术还可以减少误拒,在 XSTest 数据集的良性提示中,o1 模型的准确率高达 93%。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

“深思熟虑的对齐”通过训练模型明确推理安全策略,它为复杂的伦理挑战提供了可扩展且可解释的解决方案。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-26 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...在短板,无法很好地解决这些痛点。安全大模型急需一套全新的“作战方法”。为此,360从数据、场景、大模型和智能体4个方面进行研究,总结出新一代安全大模型的“核心战法”:数据制胜
2024-04-01 02:22:00
为实验监测装上“智慧之眼” 室内物理模型实验全场景变形智能追踪
...势,果断引入无人机技术,以“空中视角+智能分析”的全新模式,首次将无人机高空视角与智能技术成功应用于传统大尺度物理相似模拟实验,提出了复杂煤岩结构全场景多维度立体探测与辨识方
2025-07-10 10:39:00
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...,“OpenAI极有可能在2024年推出下一代模型GPT-5,也许会有全新的代号,无论如何比较肯定的是其认知能力将带来通用人工智能的再一次变革
2024-06-05 18:36:00
...端的安全以及基座模型的安全,构成一个人工智能安全的全新领域,解决方法的关键是“以模制模”。“我们花了很多功夫专门做安全大模型,就是用聪明的大模型智力、能力去管理知识库的使用,
2025-03-02 19:28:00
国内成立首个超级智能安全实验室
...务;极大拓展了人类探索科学的范围、尺度和视角,构建全新的人机协同科研范式,将重塑世界科研格局。我国人工智能研究和应用已处于世界先进水平,近期DeepSeek等高水平应用更引发
2025-03-31 11:35:00
如何安全“喂养”人工智能?这届WAIC上,科学家、企业家这样建议
...上,蚂蚁集团首次系统展示蚂蚁可信AI的技术架构,以及全新升级的可信AI工业检测平台——蚁鉴2.0。记者在蚂蚁集团展示现场,看到了一台搭载这一系统的装置。该装置模拟了蚁鉴2.0
2023-07-07 17:26:00
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3.2来了!这次,最大的亮点在于
2024-09-27 13:39:00
百度发布Apollo开放平台的全新升级版本
12月4日消息,百度今日发布Apollo开放平台的全新升级版本—— Apollo开放平台10.0。据介绍,该平台不仅在软件核心层、应用软件层、工具服务层进行了升级,还通过自动驾驶
2024-12-05 03:09:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...动、直观、易出错)进化到了可使用系统 2 思维(缓慢、深思熟虑、有意识、可靠)。这让它能够解决以前无法解决的问题。 从今天 ChatGPT 的用户体验来看
2024-09-13 16:42:00
更多关于科技的资讯:
中新经纬11月1日电 题:零首付租赁,机器人“普惠时代”来了作者 王喜文 北京华夏工联网智能技术研究院院长近期,智元机器人联合飞阔科技
2025-11-02 10:54:00
中新经纬11月1日电 (袁媛)近期,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》(以下简称《建议》)发布
2025-11-02 10:58:00
鸿蒙电脑版微信强势升级:40+项功能释放办公社交新势能
作为超10亿人使用的国民级社交应用,微信深度适配鸿蒙电脑并不断进行版本更新。本次更新,鸿蒙电脑版微信一次性推出40+项实用功能
2025-11-02 14:26:00
正雅齿科与士卓曼集团宣布建立战略合作伙伴关系。此次合作将整合两家集团的核心优势,以更高的效率和速度推动全球口腔健康市场的增长
2025-11-02 14:26:00
京东服饰联合天纺标发布《新舒适内衣》团体标准 共建行业品质新生态
10月31日,由京东服饰与天纺标检测认证股份有限公司联合主办的“中国内衣行业高品质供应链峰会暨京东服饰&天纺标联合发布会”在天津成功举办
2025-11-02 14:26:00
华为擎云 W515y登顶自主创新性能榜 引领自主创新终端从可用迈向好用
在全球科技格局深刻演变、国际形势日趋复杂的背景下,自主创新产业正加速从可用向好用的真替真用阶段迈进。这不仅是技术发展的必然要求
2025-11-02 14:28:00
赛力斯2025前三季净利润超53亿元 盈利能力持续增强
10月30日,赛力斯披露了2025年三季报,以亮眼的经营表现和持续攀升的交付数据,再次印证其在中国新能源豪华车市场的领跑地位
2025-11-02 14:29:00
雄安人工智能算力调度平台正式上线运行
中国雄安官网11月1日电近日,雄安人工智能算力调度平台在雄安城市计算中心正式部署完成并投入运行,标志着雄安新区在构建集约高效
2025-11-02 18:03:00
中国轻奢美护品牌黎科世亮相巴黎设计周,以生物科技融合感官美学
近日,中国轻奢美护品牌SENSLUX(黎科世)凭借其融合生物科技与感官美学的独特理念,在2025年9月举办的巴黎设计周中国创新馆中精彩亮相
2025-11-02 21:50:00
AI盛宴启幕!“科大讯飞1024科博展”燃动合肥
大皖新闻讯 11月2日,第八届世界声博会暨2025科大讯飞1024全球开发者节科博展在合肥体育中心盛大启幕。从萌趣幼教机器人到智能健康助手
2025-11-02 22:42:00
走进院士专家工作站系列报道丨专家工作站“破局” 双兴智能实现豆类收获“芯”突破
编者按:科技是第一生产力,人才是第一资源。从田间地头到生产车间,从技术瓶颈到产业升级,十堰市科协主动作为,当好“科技红娘”
2025-11-02 20:13:00
英语培训机构教务系统高适配推荐:外教管理 + 分级排课 + 学员约课!
现代英语培训机构的高效运转,离不开专业教务系统的有力支撑。一套设计科学的英语培训机构教务管理系统,如同机构的智能中枢,将教学管理
2025-11-02 18:46:00
日前,位于山西转型综改示范区学府总部经济园区的医学影像数据人工智能大模型产业发展项目进入试运行阶段。目前已完成平台建设和医院对接
2025-11-02 18:06:00
□南京日报/紫金山新闻记者张甜甜 通讯员夏俊林娜10月31日,南京市统计局、国家统计局南京调查队发布南京经济“三季报”
2025-11-01 09:44:00
上海虹桥医院癫痫专病诊疗新高度:个性化方案,全程化守护
癫痫发作的不可预测性及其对记忆、情绪、社交、学业与工作等方面的深远影响,构成了广大患者面临的核心挑战。诊断的复杂、治疗方案的普适性困境以及持续管理的缺失
2025-11-01 10:05:00