• 我的订阅
  • 科技

研究表明 GPT-4 模型具备自我纠错能力

类别:科技 发布时间:2023-07-05 17:40:00 来源:浅语科技

麻省理工学院(MIT)和微软的研究学者发现,GPT-4模型具有优秀的代码自我纠错能力,而GPT-3.5不具有该特性,目前论文已经发布于ArXiv中。

研究表明 GPT-4 模型具备自我纠错能力

▲图源ArXiv

当下市面上已经涌现出了一批专为代码而生的AI模型,但目前更多只是起到辅助开发者写代码的作用,例如小伙伴们熟悉的微软Copilot助理,这些AI模型当下仅能够生成代码片段,因此尚不能完全替代人工开发者。

研究人员通过研究GPT-4表示,当下实际上可以通过“模型的自我纠错”方式,令模型“反思自身所存在的不足之处”,以提升代码片段长度、并改善输出结果的准确度。

研究表明 GPT-4 模型具备自我纠错能力

▲图源ArXiv

研究表明 GPT-4 模型具备自我纠错能力

▲图源ArXiv

来自爱丁堡大学的研究者符尧表示,只有GPT-4才具备自我改进的能力,而较弱的GPT-3.5则没有这种特性,这一发现表明大型模型可能具有一种新型能力,即通过一系列用户反馈令AI自我纠错,最终得到令用户满意的结果,这种自我纠错的能力可能只存在于足够成熟的AI模型中。

在经过自我纠错后,GPT-4模型输出的代码有71%达到研究人员设定的要求,而使用GPT-4对 GPT-3.5所生成的代码经过纠错后,这一批代码的通过率也达到了54%。

研究人员表示,当下可以将GPT-4的自我纠错方式应用于商业中,在扣除一系列纠错冗余成本后,依然能够产生一定的收益。论文总能够在一定程度上反映行业未来的趋势,因此有望在今后涌现出一批基于GPT-4的代码生成器。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-05 21:45:21

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

科学家建立新评价基准,助力评估大模型数据分析能力
...术背景人员不可或缺的工具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成
2024-04-07 10:50:00
...麻省理工学院和微软的研究学者们发现,人工智能(AI)模型GPT-4具有卓越的代码自我纠错能力,而GPT-3.5不具备这种特性。目前相关论文已经在相关学术平台进行发布。当前市场
2023-07-08 05:56:00
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
豆包代码大模型,不小心给曝光了!在字节开源的代码大模型评估基准FullStack Bench里面,出现了此前字节未披露过的Doubao-Coder
2024-12-06 09:50:00
杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek
北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座
2025-05-28 14:17:00
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...【新智元导读】Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等
2024-11-28 12:02:00
ChatGPT中短期产业化方向主要为:文字模态的AIGC应用、代码开发相关、图像生成领域、智能客服
...款基于AI的自然语言处理工具。ChatGPT使用的人类反馈强化模型技术使用人类偏好作为奖励信号来微调模型,能够通过学习和理解人类的语言进行对话,像人类一样聊天交流,甚至能完成
2023-02-19 10:00:00
Scaling Law瓶颈,Cursor编程为什么这么强?新研究掏出秘密武器
...者,该项目负责开发用于 AI 编程的 StarCoder 系列大型语言模型。论文标题:Planning In Natural Language Improves LLM Search For Code Generation 论文地址
2024-09-12 09:47:00
中国首个音乐SOTA模型「天工音乐大模型」今日公测
2024年4月17日,在「天工」大模型一周年之际,昆仑万维重磅宣布,「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天,第一版天工大模型正式对
2024-04-17 15:31:00
谷歌deepmind公布ai模型训练法
...15日消息,谷歌DeepMind日前公布了一种名为“FunSearch”的模型训练法,号称能够计算包含“上限级问题”
2023-12-16 02:20:00
更多关于科技的资讯:
新春福利来袭!上纵览领顺丰福利券,燕赵家乡年味寄回家
新春将至年味漫卷街巷牵挂亦随团圆脚步愈发浓烈纵览新闻客户端携手顺丰速运重磅打造“年味传情,顺丰到家”新春寄递专属福利以实在优惠为每份心意添力即日起至3月3日打开纵览新闻客户端点击
2026-01-30 21:20:00
深耕快消品设计领域,北京博创设计以国际水准铸就品牌视觉力量
在国内高端品牌设计领域,北京博创设计公司(Bofly Design)凭借近二十年的深耕积淀,以专业的全链路服务能力、众多国际奖项背书及标杆级客户案例
2026-01-30 22:14:00
今天,我们需要一瓶什么样的酒?
多彩贵州网讯 作为一个普通消费者,走在超市琳琅满目的酒水区,或是滑动手机屏幕浏览五花八门的电商页面时,我们常常会停下来思考
2026-01-30 20:05:00
摘要:本文从家校社协同育人空间阻滞、文化断层问题出发,提出了以社区的微空间作为整合枢纽的设计思路。依靠功能复合化布局、地域文化元素的创新转化和VR/AR技术的虚实融合体验来创建起联系家庭
2026-01-30 17:40:00
日前,中国消费者协会将2026年消费维权年主题定为“提升消费品质”。这一主题旨在构建起“供给提质、维权提效、环境优化”的全链条治理体系
2026-01-30 17:47:00
中国消费者报报道(记者施本允)面对日均667件的海量消费投诉涌来,如何更准确有效地进行分流、处置?如何聚焦高风险业态进行预警
2026-01-30 17:47:00
中国消费者报上海讯(记者刘浩)上海市虹口区消费者权益保护委员会近日发布的宠物经济消费调查结果显示,90后、00后成为宠物消费主力
2026-01-30 18:17:00
省科学技术奖,锡山+6!
为激励企业自主创新、开放合作,更好地服务国家重大战略,推进江苏高质量发展,近期江苏省政府发布了《关于2024年度江苏省科学技术奖励的决定》
2026-01-30 18:20:00
今年春运期间,中国铁路南昌局南昌西动车组运用所的智能检修机器人将发挥重要作用,这款集成多重智能技术的“检修尖兵”,实现了动车组车厢底部全自动
2026-01-30 18:23:00
日前,中新经纬研究院与国家广告研究院联合发布报告《医药出海新图景》(下称《报告》)。这是双方推出的2025中国品牌出海系列报告第9期
2026-01-30 18:44:00
一口喜旺味,岁岁皆安康,解锁新年团圆仪式感
节庆馈赠的品质选择,源自对风险管控与生产闭环的极致追求。喜旺凭借其贯穿全链路的“风险驱动+全过程控制”体系,将“安心”转化为可测量
2026-01-30 14:53:00
新消费时代植物医生的 “空间重构”:从货架到生命场的 “实体进化”
“虚拟世界缺乏信任的最终载体,如果产品有问题,顾客可以找到你。这是线下店最根本的力量。”2026年1月初,在深圳举办年会时
2026-01-30 15:11:00
章丘首店!三联家电入驻世茂广场,2月6日盛大启幕!
鲁网1月29日讯三联家电,扎根齐鲁四十一载,“买家电,到三联,三联家电,保修终生”,这句话承载着几代人的回忆,随着家电市场的不断变迁
2026-01-30 15:31:00
娇韵诗撤下彩妆代言人金晨置顶微博
大皖新闻讯 1月30日下午,大皖新闻记者注意到,娇韵诗官方微博撤下彩妆代言人金晨相关的置顶内容。目前该微博账号置顶微博为迪丽热巴相关内容
2026-01-30 15:51:00
在经济全球化深入推进的背景下,跨境贸易已成为推动经济增长的重要引擎,而高效、安全的外汇服务则是保障跨境贸易顺畅开展的关键支撑
2026-01-30 16:02:00