• 我的订阅
  • 科技

OpenAI发布最新技术研究,AI“黑盒”不再是难题!

类别:科技 发布时间:2024-07-18 09:47:00 来源:每日经济新闻

7月18日凌晨,OpenAI在官网发布了最新技术研究——Prover-Verifier-Games。

随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这也就会出现输出“黑盒”的情况。

为了解决这个难题,OpenAI提出了全新训练框架Prover-Verifier Games(简称“PVG”),例如,用GPT-3这样的小模型来验证、监督,GPT-4大模型的输出,从而提升输出准确率以及可控性。

OpenAI发布最新技术研究,AI“黑盒”不再是难题!

PVG技术概念早在2021年8月的一篇论文中就被提出来,OpenAI也正是受此灵感启发。这是一种基于博弈论的训练方法,通过模拟证明者和验证者之间的互动,提高模型的输出质量。

在这个机制中,Prover(证明者)的任务就是生成内容,而Verifier(验证者)的任务就是判断这些内容是否正确。

这样做的目的是让验证者学会如何从大量的内容中识别出正确的答案。在验证的过程中,证明者和验证者的角色是相互依赖的。证明者需要生成能够说服验证者的内容,而验证者则需要具备足够的判断力来识别出正确的内容。

在训练PVG时,每轮训练都包括验证者和证明者的优化。在每一轮中,验证者首先使用监督学习来预测内容的正确性,帮助验证者学会如何从大量的内容中识别出正确的答案。使证明者通过强化学习来优化其生成的内容。

OpenAI发布最新技术研究,AI“黑盒”不再是难题!

例如,当用户提出问题“肖娜的父亲的年龄是肖娜的5倍。肖娜目前的年龄是阿莉亚的3倍。如果阿莉亚3岁,肖娜的父亲有多大?”

GPT-4的输出为45岁。

OpenAI发布最新技术研究,AI“黑盒”不再是难题!

而验证者模型GPT-3需要确定阿莉亚的年龄,然后根据阿莉亚的年龄计算出肖娜的年龄,最后再根据肖娜的年龄计算出肖娜父亲的年龄,整个过程需要多轮验证。

OpenAI发布最新技术研究,AI“黑盒”不再是难题!

此外,在训练过程中,OpenAI还引入了一种名为“可检查性训练”(checkability training)的方法。

通过交替训练验证器和证明者模型,从而验证使用监督学习来预测从之前轮次的证明者中采样的解决方案的正确性。证明者则使用强化学习,根据当前轮次验证器的接受度和解决方案的正确性来进行持续优化。

研究人员表示,随着训练轮次的增加,验证者的健全性逐渐提升,表现为对狡猾论证者生成的错误解决方案的抵抗力增强。同时,有益论证者生成的解决方案也变得更清晰,更易于被人类理解。

分不清9.9与9.11谁大?大模型数学能力堪忧

值得注意的是,据《每日经济新闻》报道,此前,由综艺节目《歌手2024》排名引发的热议蔓延到大模型领域,也成了一场针对大模型数学能力的小测。

在《每日经济新闻》记者7月17日的测试中,对于13.11%与13.8%谁大的问题,除了智谱清言外,文心一言、通义千问、kimi、商汤商量、百川智能百小应等大模型均给出了正确回答。

大部分大模型都在给出答案的同时呈现了推理过程。智谱清言给出的推理过程显示,在比较13.11%和13.8%时,13.11%是更大的数值。这是因为当比较两个百分数时,我们首先比较整数部分,如果它们相同,则比较小数部分。在这里,两个数的整数部分都是13,但13.11的小数部分(11)大于13.8的小数部分(8),因此13.11%大于13.8%。

从推理过程判断,可能由于小数点后数位不同,大模型在比较过程中产生了幻觉。经过两轮提问后,智谱清言给出了正确回答。

当记者把问题换成“9.9与9.11谁大”,零一万物的万知大模型等同样在一开始给出错误答案,当记者进一步追问“9.11减9.9等于多少”,甚至有大模型给出“0.21”的答案。

万知的推理过程稍显混乱:在比较9.9和9.11时,由于整数部分都是9,所以比较小数点后的第一位数字。9.9的小数点后第一位是9,而9.11的小数点后第一位是1。由于9小于10,所以在比较小数点后第二位数字时,9.9的小数点后第二位是0(隐含的),而9.11的小数点后第二位是1。因此,9.9的小数点后第二位数字(隐含的0)小于9.11的小数点后第二位数字(1),所以9.9小于9.11。

随后,记者向大模型提问:为何会出现有大模型认为13.11大于13.8的情况?

ChatGPT给出的回答显示,出现这种情况的原因可能是由于计算或比较方式的错误。可能的误差原因包括:数值理解错误,有时系统可能会误解数字的小数点位置;字符串比较,如果直接按字符串比较,可能会出现错误。因为字符串比较是按字符顺序逐一比较的,而不是按数值比较;代码实现错误,在编程中,可能存在比较逻辑或转换错误。

文心一言给出的解答则是,训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面,即大模型在训练过程中,可能接触到了大量包含数字的数据,但这些数据并不总是以比较大小为目的。例如,数字可能出现在版本号、股票代码、基金表现、汇率等上下文中,这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足,模型可能无法学习到正确的比较规则。

另一方面,可能由于大模型在处理输入文本时,将数字视为字符序列,而不是具有数值意义的实体。因此,在比较数字大小时,模型可能没有正确地将其转换为数值进行比较。另外,模型在处理小数时可能存在困难,特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。

7月17日,有大模型企业人士在接受记者电话采访时表示,对于大模型而言,这不是很难解决的技术难点,只要喂了这方面的数据,其实就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。

OpenAI“草莓”项目曝光,推理能力接近人类?

新近消息显示,OpenAI正在让人工智能(AI)大模型的能力更加接近类人的推理水平。

据知情人士和媒体查阅的内部文件,ChatGPT开发商OpenAI正在一个代号为“草莓”的项目中开发一种新的人工智能模型。该项目的细节此前从未被报道过,目前该公司正在努力展示其提供的模型类型能够提供高级推理能力。这位知情人士说,即使在OpenAI内部,“草莓”的工作原理也是一个严格保密的秘密。

知情人士还透露,该内部文件描述了一个使用Strawberry模型的项目,目的是使该公司的人工智能不仅能够生成查询的答案,而且能够提前做好足够的计划,自主、可靠地在互联网上导航,以执行OpenAI所说的“深度研究”。

图片来源:视觉中国-VCG31N2008743681

OpenAI被问及上述所说的草莓技术时,OpenAI的发言人在一份声明中表示:“我们希望自身AI 模型能够像我们(人类)一样看待和理解世界。持续研究新的AI能力是业界的常见做法,大家都相信这些系统的推理能力会随着时间的推移而提高。”

虽然该发言人未直接回答有关草莓的问题,但媒体称,草莓项目此前名为Q*。而Q*正是去年被爆出OpenAI CEO突然被解雇宫斗大戏的导火索。

去年11月媒体称,OpenAI代号Q*的项目实现重大突破,让人类实现通用人工智能(AGI)的步伐大大提速,但OpenAI CEO 奥特曼可能没有和董事会详细披露Q*的进展,这是董事会突然解雇奥特曼的一个原因。OpenAI的内部人士向董事会致信警告,Q*的重大发现可能威胁全人类。

媒体称,Q*可能具备GPT-4所不具备的基础数学能力,或许意味着与人类智能相媲美的推理能力,网友推测,这可能代表OpenAI朝着其设定的AGI目标迈出了一大步。

今年3月曝光的一份文件显示,OpenAI计划,在2027年以前,开发出人类水平的AGI。OpenAI 2022年就开始训练一个125万亿参数的多模态模型,该模型名为Arrakis或Q*,原本计划在2025年作为GPT-5发布,但因推理成本高而取消。OpenAI此后计划,2027年发布的Q 2025(GPT-8)将实现完全的AGI。

人工智能(AI)研究者早就在争论用什么标准判断人类实现了通用人工智能(AGI)。OpenAI最近开发了一套系统,“自定义”AI进化等级,以此追踪开发人类级别AI的进展。

每日经济新闻综合OpenAI官网、每日经济新闻(记者 可杨)、公开资料

每日经济新闻

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-18 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...记者 陈宁)日前,在上海商汤临港AIDC举行的“2024年商汤技术交流日”活动现场,商汤发布行业首个“云、端、边”全栈大模型产品矩阵
2024-04-29 04:36:00
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
...能力。8个大模型答错大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示
2024-07-17 11:56:00
LLM破局泛化诊断难题,MSSP刊登北航PHM实验室健康管理大模型研究
...们探索并打通了基于预训练大语言模型解决泛化故障诊断难题的技术路线,初步展现了对跨工况、小样本、跨对象等泛化诊断任务的综合解决能力。 北航 PHM 实验室为业界学者应对故障诊断
2024-11-29 09:27:00
伏羲大模型亮相:人工智能助力解决次季节和极端天气预测难题
今年9月1日上午,复旦大学2023级新生开学典礼在光华楼前大草坪举行,来自80个国家和地区的1.6万余名新同学,齐聚光草,共赴这场青春盛会。在此之前,上海已接连三日雨水不断,当人
2023-12-15 09:21:00
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...模型更要谨言慎行。关于「救老婆还是救老妈」这个千古难题,Skywork o1 Lite 没有给出绝对答案,而是权衡利弊
2024-11-28 10:00:00
国际数学日 | 历史上的今天
...个人计算机出现之前的几十年。它的开发是美国国立卫生研究院(NIH)计划的结果,该计划在全国选定的生物医学研究实验室放置了 20 个早期 LINC 原型的副本
2023-03-15 05:00:00
重庆邮电大学净源科技发布革命性净水剂,AI驱动破解印染废水处理难题
...学净源科技发布革命性净水剂,AI驱动破解印染废水处理难题在重庆沙坪坝的一家印染厂,污水池中不断注入深蓝色的废水,经过一系列处理后变得清澈见底——这并非传统化学絮凝工艺的成果,
2025-07-08 09:17:00
真香!智谱大模型,有了首个免费的API
...较方法。而目前版本的 GPT-4o 全都翻车了。 测试 2:此前研究机构 LAION 在一项研究中发现,GPT-3
2024-08-28 09:43:00
谷歌推出datagemma开放权重语言模型新版本
...决大语言模型(LLMs)处理数值或统计数据时面临的幻觉难题,精确性至关重要。DataGemma通过两种关键技术:检索交错生成(RIG)和检索增强生成(RAG)
2024-09-13 20:42:00
更多关于科技的资讯:
20日,国家人工智能应用中试基地(医疗)·浙江正式开园并发布系列重大成果。其中,浙江省推出的全国首个数实融合的“安诊儿”医疗智能体升级至3
2025-12-21 07:20:00
河北日报讯(见习记者康晓博)12月19日,中国气象局在雄安新区发布气象人工智能科学模型“风源”(以下简称“风源”)。该模型将通过提供开源开放科创平台底座
2025-12-20 08:21:00
2025年,港交所成为中国机器人企业的上市“热土”。据不完全统计,年初至今,超30家机器人相关企业向港交所递交申请表,业务范围覆盖核心零部件
2025-12-20 08:23:00
鲁网12月19日讯为加快数字人民币业务拓展,提升数字钱包渗透率,抢占支付市场与同业市场,工商银行泰安分行精心组织、强力推进数字人民币单位钱包拓展工作
2025-12-20 09:07:00
中国科大提出视觉与波动特征融合的异常检测框架
大皖新闻讯 城市地面下的空洞、裂缝和其他隐蔽灾害如若未被及时发现,会存在一定的安全隐患。12月20日,大皖新闻记者从中国科学技术大学获悉
2025-12-20 11:05:00
12月15日,工信部正式公布我国首批L3级有条件自动驾驶车型准入许可,两款分别面向城市拥堵场景和高速公路场景的车型将在北京
2025-12-20 12:13:00
鲁网12月20日讯为进一步提高服务水平,提升业务竞争力,莱芜农商银行高新区公司业务营销中心优化办贷流程,坚持“我们多跑趟
2025-12-20 15:11:00
这支年轻团队在合肥逐梦星辰 致力打造国内首款电循环液体运载火箭
大皖新闻讯 几天前,关于合肥要造火箭的消息引发外界广泛关注,背后则是合肥星火空间科技有限公司(以下简称星火空间)落户合肥新站高新区
2025-12-20 15:13:00
莱芜农商银行钢城区公司业务营销中心:提升厅堂质效 强化精准赋能
鲁网12月20日讯为进一步深化“以客户为中心”的服务理念,提升金融产品渗透率与客户满意度,近日,莱芜农商银行钢城区公司业务营销中心精心策划并开展了一场主题为“金融惠民进厅堂
2025-12-20 15:13:00
鲁网12月20日讯为强化基础营销工作,深入推进“做小做散”战略,莱芜农商银行公司金融部全面开展“千企万户大营销”基础工作专项活动
2025-12-20 15:13:00
鲁网12月20日讯小微企业是区域经济发展的“毛细血管”,是稳就业、保民生的重要支撑。作为扎根本土的金融机构,莱芜农商银行营业部始终坚持以优质信贷服务支持辖内小微企业发展
2025-12-20 15:14:00
日前,晋塔塔式起重机远程智能辅助驾驶系统正式在太原“锦绣汾东”落地应用,这是太原首次投入使用的塔式起重机智能辅助驾驶系统
2025-12-20 17:48:00
“众星・长白岐黄” 中医药大模型正式发布
由吉林省委命题,长春中医药大学校长冷向阳教授牵头制定并实施《落实“AI+中医”具体行动方案》,吉林工商学院副院长赵佳教授领衔
2025-12-20 19:52:00
厦门网讯 (厦门日报记者 林露虹)来自厦门的光通信电芯片“单项冠军”登陆科创板。昨日,厦门优迅芯片股份有限公司在上交所科创板上市
2025-12-20 08:51:00
摘要:随着企业业务复杂度的提升与项目制运营的普及,多项目并行管理成为企业提升效率与竞争力的重要模式。然而,项目间的资源冲突
2025-12-20 05:18:00