• 我的订阅
  • 科技

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

类别:科技 发布时间:2024-12-26 09:29:00 来源:IT之家

IT之家 12 月 25 日消息,OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法,以提升 AI 模型安全性,并已在 o 系列模型中取得显著成效。

项目背景

如何确保大语言模型(LLMs)遵守明确的道德和安全准则,目前存在诸多挑战。监督微调(SFT)和来自人类反馈的强化学习(RLHF)等现有对齐技术都存在局限性,有被操纵的风险,可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。

这些问题通常源于当前安全培训的弊端,也就是模型从数据间接推断标准,而非明确地学习,通常缺乏考虑复杂提示的能力,从而限制了它们在微妙或对抗性情况下的有效性。

深思熟虑的对齐(Deliberative Alignment)

IT之家注:该方法直接教授模型安全规范,并训练它们在生成响应之前推理这些准则进,将安全原则融入推理过程中。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

整个过程分为两个阶段,第一阶段,监督微调(SFT)训练模型参考并推理安全规范,使用从基础模型生成的数据集。第二阶段,强化学习(RL)使用奖励模型,根据安全基准评估性能,进一步完善模型的推理。

不同于依赖人工标注数据的方法,“深思熟虑的对齐”使用模型生成的数据和思维链(CoT)推理,降低了安全训练的资源需求。

OpenAI 的 o1 模型已部署该技术,在抵抗越狱提示方面表现出色,在 StrongREJECT 基准测试中得分为 0.88,显著高于 GPT-4o 的 0.37;此外该技术还可以减少误拒,在 XSTest 数据集的良性提示中,o1 模型的准确率高达 93%。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

“深思熟虑的对齐”通过训练模型明确推理安全策略,它为复杂的伦理挑战提供了可扩展且可解释的解决方案。

“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-26 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...在短板,无法很好地解决这些痛点。安全大模型急需一套全新的“作战方法”。为此,360从数据、场景、大模型和智能体4个方面进行研究,总结出新一代安全大模型的“核心战法”:数据制胜
2024-04-01 02:22:00
为实验监测装上“智慧之眼” 室内物理模型实验全场景变形智能追踪
...势,果断引入无人机技术,以“空中视角+智能分析”的全新模式,首次将无人机高空视角与智能技术成功应用于传统大尺度物理相似模拟实验,提出了复杂煤岩结构全场景多维度立体探测与辨识方
2025-07-10 10:39:00
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...,“OpenAI极有可能在2024年推出下一代模型GPT-5,也许会有全新的代号,无论如何比较肯定的是其认知能力将带来通用人工智能的再一次变革
2024-06-05 18:36:00
...端的安全以及基座模型的安全,构成一个人工智能安全的全新领域,解决方法的关键是“以模制模”。“我们花了很多功夫专门做安全大模型,就是用聪明的大模型智力、能力去管理知识库的使用,
2025-03-02 19:28:00
国内成立首个超级智能安全实验室
...务;极大拓展了人类探索科学的范围、尺度和视角,构建全新的人机协同科研范式,将重塑世界科研格局。我国人工智能研究和应用已处于世界先进水平,近期DeepSeek等高水平应用更引发
2025-03-31 11:35:00
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3.2来了!这次,最大的亮点在于
2024-09-27 13:39:00
如何安全“喂养”人工智能?这届WAIC上,科学家、企业家这样建议
...上,蚂蚁集团首次系统展示蚂蚁可信AI的技术架构,以及全新升级的可信AI工业检测平台——蚁鉴2.0。记者在蚂蚁集团展示现场,看到了一台搭载这一系统的装置。该装置模拟了蚁鉴2.0
2023-07-07 17:26:00
百度发布Apollo开放平台的全新升级版本
12月4日消息,百度今日发布Apollo开放平台的全新升级版本—— Apollo开放平台10.0。据介绍,该平台不仅在软件核心层、应用软件层、工具服务层进行了升级,还通过自动驾驶
2024-12-05 03:09:00
李飞飞最新对话:我愿意被称作“AI教母”,AI不会造成“人类灭绝”
...项技术的本质,了解它是什么,以及如何在最负责任、最深思熟虑的方式下使用它。我们应该接受它,因为它是一种正在改变我们文明的横向技术,带来了诸多益处,如加速科学发现、帮助我们找到
2024-05-11 14:10:00
更多关于科技的资讯:
“三天我只睡了七八个小时,其他时间都在和‘龙虾’聊天。”这是孙艾艾见到记者后说的第一句话,作为大厂后台工程师,她从“龙虾”爆火之初就沉迷于这项技术
2026-03-14 06:51:00
想一站式淘遍全球尖货、体验未来科技、邂逅国潮新品?机会来了!以“共享大市场·出口中国”为主题的“浙里买全球·消费启杭”活动
2026-03-14 06:52:00
上班的地铁上,放眼望去,尽是抱着手机刷屏的年轻人;回到家,孩子或许正在iPad上看着动画片……我们正在进入AI数字化时代
2026-03-14 07:22:00
想体验一把“小龙虾”,结果光安装就花了四五个小时。今年1月底,当一个红色龙虾图标的AI智能体OpenClaw在硅谷极客圈开始发酵时
2026-03-14 07:22:00
三联家电章丘世茂店盛大开业:抢抓“春日经济”,助力市民“焕新家”
鲁网3月13日讯春风送暖,万象更新。在这生机盎然的春日里,三联家电章丘世茂店于3月13日盛大开业。正值“春日经济”消费热潮
2026-03-13 17:40:00
一场对话 “对”出了什么?
鲁网3月13日讯“我们依托 AI 工具实现了内容快速生产,但算力成本高、高端人才缺,政策层面有什么支持?”“有支持的,我们推出了‘算力券’政策
2026-03-13 18:14:00
新华保险河北分公司以高品质服务守护千家万户
近年来,新华保险河北分公司持续推动服务升级,以高品质服务守护千家万户。在今年3·15国际消费者权益日到来之际,新华保险河北分公司党委书记
2026-03-13 20:25:00
中新经纬3月13日电 据国家金融监管总局13日消息,近日,针对互联网助贷业务问题,金融监管总局对分期乐、奇富借条、你我贷借款
2026-03-13 21:29:00
马嘉良 河北公安警察职业学院摘要:自动驾驶技术的演进对传统静态交通管理体系提出了适应性变革要求,为保障混合交通流的安全与效率
2026-03-13 21:36:00
邹宇摘要:随着电子商务平台和移动互联网的发展,消费者在网络环境中的行为逐渐被记录并形成大规模数据资源,为利用统计方法研究消费者购买行为提供了新的数据集
2026-03-13 21:36:00
行业唯一控轴专利!海尔发布中科桌面大路灯Z5 Max,定义护眼新标杆
当前,消费者愈发重视用眼健康,尤其是青少年用眼问题,带动了护眼灯消费。京东去年1-8月数据显示,“护眼灯”类目搜索同比增长42%
2026-03-13 21:49:00
第4届国际文创新品及潮玩(上海)展览会开幕 AI玩具成新风口
3月12日,第4届国际文创新品及潮玩(上海)展览会、第13届上海国际IP授权产业博览会在上海新国际博览中心开幕。本届展会为期3天
2026-03-13 22:19:00
2026年英语口语练习APP推荐!星空外语帮你攻克雅思口语,畅享英语自由!
在雅思考试里,口语是许多考生感到头疼的科目。要在口语部分取得高分并非易事,它要求考生具备扎实的语言基础、流利的表达能力和灵活的应变思维
2026-03-13 21:52:00
海尔AI智能锁Q600Pro斩获AWE艾普兰“创新奖”
3月12日,2026年中国家电及消费电子博览会(AWE2026)在上海启幕,全球最夯的智能家电与智慧生活解决方案悉数亮相
2026-03-13 21:48:00
中国网3月13日讯电 据市场监管总局网站消息,近日,市场监管总局印发《关于强化广告中提示性用语监管工作的通知》(以下简称《通知》)
2026-03-13 19:05:00