• 我的订阅
  • 科技

研究表明 GPT-4 模型具备自我纠错能力

类别:科技 发布时间:2023-07-05 17:40:00 来源:浅语科技

麻省理工学院(MIT)和微软的研究学者发现,GPT-4模型具有优秀的代码自我纠错能力,而GPT-3.5不具有该特性,目前论文已经发布于ArXiv中。

研究表明 GPT-4 模型具备自我纠错能力

▲图源ArXiv

当下市面上已经涌现出了一批专为代码而生的AI模型,但目前更多只是起到辅助开发者写代码的作用,例如小伙伴们熟悉的微软Copilot助理,这些AI模型当下仅能够生成代码片段,因此尚不能完全替代人工开发者。

研究人员通过研究GPT-4表示,当下实际上可以通过“模型的自我纠错”方式,令模型“反思自身所存在的不足之处”,以提升代码片段长度、并改善输出结果的准确度。

研究表明 GPT-4 模型具备自我纠错能力

▲图源ArXiv

研究表明 GPT-4 模型具备自我纠错能力

▲图源ArXiv

来自爱丁堡大学的研究者符尧表示,只有GPT-4才具备自我改进的能力,而较弱的GPT-3.5则没有这种特性,这一发现表明大型模型可能具有一种新型能力,即通过一系列用户反馈令AI自我纠错,最终得到令用户满意的结果,这种自我纠错的能力可能只存在于足够成熟的AI模型中。

在经过自我纠错后,GPT-4模型输出的代码有71%达到研究人员设定的要求,而使用GPT-4对 GPT-3.5所生成的代码经过纠错后,这一批代码的通过率也达到了54%。

研究人员表示,当下可以将GPT-4的自我纠错方式应用于商业中,在扣除一系列纠错冗余成本后,依然能够产生一定的收益。论文总能够在一定程度上反映行业未来的趋势,因此有望在今后涌现出一批基于GPT-4的代码生成器。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-05 21:45:21

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

科学家建立新评价基准,助力评估大模型数据分析能力
...术背景人员不可或缺的工具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成
2024-04-07 10:50:00
...麻省理工学院和微软的研究学者们发现,人工智能(AI)模型GPT-4具有卓越的代码自我纠错能力,而GPT-3.5不具备这种特性。目前相关论文已经在相关学术平台进行发布。当前市场
2023-07-08 05:56:00
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
豆包代码大模型,不小心给曝光了!在字节开源的代码大模型评估基准FullStack Bench里面,出现了此前字节未披露过的Doubao-Coder
2024-12-06 09:50:00
杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek
北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座
2025-05-28 14:17:00
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...【新智元导读】Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等
2024-11-28 12:02:00
ChatGPT中短期产业化方向主要为:文字模态的AIGC应用、代码开发相关、图像生成领域、智能客服
...款基于AI的自然语言处理工具。ChatGPT使用的人类反馈强化模型技术使用人类偏好作为奖励信号来微调模型,能够通过学习和理解人类的语言进行对话,像人类一样聊天交流,甚至能完成
2023-02-19 10:00:00
Scaling Law瓶颈,Cursor编程为什么这么强?新研究掏出秘密武器
...者,该项目负责开发用于 AI 编程的 StarCoder 系列大型语言模型。论文标题:Planning In Natural Language Improves LLM Search For Code Generation 论文地址
2024-09-12 09:47:00
中国首个音乐SOTA模型「天工音乐大模型」今日公测
2024年4月17日,在「天工」大模型一周年之际,昆仑万维重磅宣布,「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天,第一版天工大模型正式对
2024-04-17 15:31:00
谷歌deepmind公布ai模型训练法
...15日消息,谷歌DeepMind日前公布了一种名为“FunSearch”的模型训练法,号称能够计算包含“上限级问题”
2023-12-16 02:20:00
更多关于科技的资讯:
烟台联通圆满完成2026“百花汇海”山东秧歌会通信保障
胶东在线3月3日讯3月1日,由山东省文学艺术界联合会等单位指导主办的2026“百花汇海”山东秧歌会在烟台海阳市河清岛体育场盛大举行
2026-03-03 20:29:00
涌金楼丨浙江经济第一区确立“首要任务”
余杭“十四五”五年成绩单。受访者供图3月2日,余杭区召开经济高质量发展大会。这是余杭连续第五年以“高质量发展”为题召开大会
2026-03-03 22:27:00
江南时报讯 凌晨2点,扬子江数字视听产业园的“短剧公寓”里,张弛仍然坐在电脑前,屏幕上是他十多个海外短视频账号的数据反馈——当天发布的97条短剧切片
2026-03-03 22:48:00
河北特色产业集群数字金融平台助力解决企业融资难银企互联 点“数”成金“通过平台提供的‘数字信用’,仅用5天我们就拿到了1700万元的授信贷款
2026-03-03 17:55:00
2026全国两会正月十五元宵节,委员们从天津出发共赴盛会!海河传媒中心为委员们送上精心准备的贺卡!万家团圆日,一张贺卡,一份天津情!奋斗再出发!
2026-03-03 18:54:00
去年涨3次,今年集体降价!羽毛球价格“过山车”的背后
大河网讯(记者 莫韶华)“终于等到你,还好我没放弃!”近日,多个羽毛球品牌宣布降价的消息在球友圈刷屏。降价是真是假?幅度有多大
2026-03-03 18:57:00
中国联通精彩亮相MWC2026 聚焦“连接、算力、服务、安全”核心赛道 共筑全球数字新生态
3月2日至5日,2026年世界移动通信大会(MWC2026)在西班牙巴塞罗那盛大举行。中国联通以“数智焕新,向实同行”为主题
2026-03-03 19:24:00
从哲学思辨到技术冲击,再到智能融合,艺术与科技的关系不断被重新定义。围绕“AI与艺术的融合”这一主题,实战派管理美学专家
2026-03-03 17:58:00
鲁网3月3日讯近日,国际权威品牌价值评估机构Brand Finance发布2026“全球电子家电品牌价值50强”榜单(Electronics &
2026-03-03 14:24:00
线下二手店为何圈粉年轻人?
“益客”二手循环商店展示的生活用品“益客”二手循环商店,衣服整齐陈列“善淘”二手店前台,随处可见公益标识 “三兔二手”店一角“三兔二手”店部分商品 不想穿的衣服鞋子
2026-03-03 15:54:00
巴基斯坦政府引进阿里巴巴达摩院多癌筛查AI
近日,阿里巴巴达摩院在巴基斯坦达成系列合作,与巴基斯坦首都医院(Capital Hospital)、卡瓦贾·穆罕默德·萨夫达尔医学院(Khawaja Safdar Medical College)
2026-03-03 14:19:00
AI产品榜:月活2.03亿、增速552%,千问成全球第三大AI应用
3月3日,AI产品榜发布全球AI应用最新数据。榜单显示,MAU(月活用户数)排名前三的AI应用分别为ChatGPT、豆包和千问
2026-03-03 14:49:00
重塑桌面生产力:腾讯应用宝联合微软、英特尔发布《2026年跨端生态趋势白皮书》
全球PC产业正从疫情后的需求透支期转向稳态复苏。中国大陆市场表现尤为强劲,2025年连续两个季度PC出货量实现两位数增长
2026-03-03 14:19:00
AI一键生成以假乱真的卖家秀,无需实拍就能打造“完美”产品效果;批量伪造买家秀、炮制虚假好评,用算法拼凑“走心”体验……日前
2026-03-03 11:14:00
正面硬刚Meta!千问AI眼镜MWC首秀,与全球巨头对垒
在MWC 2026巴塞罗那展会现场,千问AI眼镜与Meta的AI眼镜展台正面对垒。3月2日,千问宣布其首款AI硬件将于3月8日在中国现货发售
2026-03-03 11:16:00